前言
“請問特徵提取之後我該如何分析?”
“我想找出有統計學差異的特徵,要用什麼統計學方法?”
“LASSO的內涵是什麼?真的這麼厲害?”
“Rad-score是什麼?到底要怎麼算?”
“那張一條一條的橫線,有分值的….,對就是 落-寞-gram! 是什麼意思?怎麼畫??”
“鄙人課題簡單粗暴,有哪些高大上的統計圖可以撐場面”?
“我想做一批基於影像組學的膠質瘤鑑別應用研究,最少需要蒐集多少病例?”
“這是我的病例集、數據分佈情況,請問我可以怎麼分析?”
“我的Statistical analysis寫的不好,你幫檢查檢查?!”
“老鐵,這課題咋設計?至少需要多少病例”
“影像組學還可以在哪些方面應用?核心是什麼?怎麼實現?”
“我需要具備什麼才能上手radiomics?怎麼做?能發幾分兒啊?有什麼瓶頸?未來“K”線圖走向?”
“有人説影像組學就是統計學的一種高級應用?是這樣嗎?”
“……???”
這些問題是否經常困擾你影像組學多年的科研旅程?
幾年前鄙人剛開始接觸影像組學的時候也有過類似的困惑,經過這幾年的摸爬滾打,深入學習,我對這塊更加熟悉,終於能總結出一些方法經驗和簡化代碼。希望基於本公眾號平台,可以給大家在影像組學Radiomics和醫學統計學等方面上提供一些思路和參考。
影像組學作為一門新生學科,需要不斷深入研究和探索,希望通過此平台,與各位路人和大神多溝通,多學習,共同進步。
由於篇幅過長,我將分成多期推送,希望大家在研究的路上張弛有度,高效學習。
第一部分 影像組學官網定義
“Radiomics”最早是由荷蘭的學者Philippe Lambin提出來的(見下圖),簡言之,旨在用“高級特徵分析法”從醫學影像中提取出更多的信息來協助臨牀的一種輔助診斷方式。
解讀:“高級特徵法”其實就是針對“影像”中的某個“區域”,用特定的“工具”提取“信息”、“分析”信息,進而對臨牀進行“輔助診斷”。
**“影像”:**常見的有平掃/增強CT、磁共振MRI、PET影像、超聲、X-ray等(甚至簡單至單張圖片也可以執行,但基本不做),圖像蒐集完畢後可能需要進行格式轉化、配準的內容。
“區域”:區域就是指需被研究的內容,官方稱“ROI,即Region Of Interest感興趣區域”,這個ROI是需要被勾畫出來的,也可以稱“分割”,目前分割的方法有①全自動分割法(滑降區域生長法(region-growing methods)、圖割法(graph cut methods)、基於容量CT的分割法(volumetric CT-based segmentation)或是基於深度學習模型結晶而成等等);②半自動分割算法(semiautomatic segmentations);③打工人手動分割法(ITK-SNAP(地址http://www.itksnap.org/pmwiki/pmwiki.php)、3D-slice(地址https://www.slicer.org/))是目前最常用的,為什麼?你懂得。
**“工具”:**目前常用的、公認的有①Pyradiomics(網址:https://pyradiomics.readthedocs.io/en/latest/index.html),這是一個基於Python語言環境下的開源庫,可以理解為R語言內的函數包,可以用來提取特徵,但需在Python環境下進行編碼,才能完成,也有很多其他資料,請參考官網;②IBSI(Image Biomarker Standardisation Initiative),這是特徵的定義、公式等純理論具體內容,常用MATLAB、C++等語言實現;③IBEX,是MATLAB的一個程序,也是可以用於提取特徵;④公司開發的軟件,比如GE公司的AK、IF等。
**“信息”:**目前為止大家絕大多數在探索組學特徵,常用有①IBSI(Image Biomarker Standardisation Initiative),因此也可以稱影像組學特徵為影像(腫瘤/病理)標誌物;②Pyradiomics。這些本質上是基於計算機視覺領域的圖像分析領域-數據圖像,因為説白了圖像就是數字本身,因此可以通過一定的公式運算,形成有計算機含義的特徵,①②基本上是一樣的,只是在分類和數量上有點差異,大家選擇其一使用即可。公式中存在幾個如步長、翻轉角的參數,改變他們就可以算出同名系列特徵,這就是為什麼有的人只提取幾百個,而有的人能提取幾千個特徵的區別,但不一定越多越好,這目前尚無實證研究。特徵的種類大致有以下幾類(參考Pyradiomics)
中文可以這麼翻譯:一階統計特徵、2D/3D形狀特徵、灰度共生矩陣、灰度遊程長度矩陣、灰度大小區域矩陣等等。找一個感受一下:
**“信息”**指的就是這些晦澀難懂的特徵變量,研究到目前,除了組學特徵,目前還常常引入稍微好理解的基因數據、病理、臨牀指標。
“分析信息”:具體指的就是統計分析,影像組學絕大部分都是在做統計分析的工作,挖掘內在聯繫和模型構建與驗證,這部分內容比較多,後續將一一推出核心內容和實現方法。
“輔助診斷”:沒錯,就是字面意思。醫學影像輔助診斷,輔助是的臨牀大夫對疾病的判斷(比如肺結節的良性or惡性,腸癌/胃癌等良惡性判斷、腫瘤分子分型、病理分級、療效評估、預後預測等等,還有什麼?那還不趕緊關注公眾號,下期分享)起初是針對腫瘤,除了良惡性判斷,慢慢延伸至量化病情、治療方案等,這具有重要的臨牀意義。影像均為數字圖像,因此也成為“計算機輔助診斷(computer aided diagnosis,CAD)”
影像組學(&深度學習)也是醫工交叉類的產物,具有廣闊與深遠的前景。雖然目前影像組學看似很完善,但其實流程上還有很多不足和難題,慢慢將在後期推出各種難題供大家思考,先賣個關子,比如最常見的Rad-score結合臨牀發現radiomics比臨牀貢獻度更大,真的是這樣嗎?你品,你細品。
上圖也是影像組學開山之作paper內的一張圖,簡單闡述了其運作模式:
獲取圖像 -> 勾畫 -> 特徵提取 -> 統計分析
其中,前三步驟是一個“清洗”與“標準化”的過程,目的是為統計分析做準備,因此重點在最後的統計分析模塊。説到底,影像組學核心底層實際上就是統計分析內容,比如特徵數據的清洗、不平衡處理、PCA等特徵篩選、機器學習模型構建,預測手段和評價指標,基本都是統計學領域,本公眾號“挺煩的統計”就是專門研究和探索Radiomics、Medicine Statistics Analysis等等方面的頻道。
第二部分:具體應用方向?十大維度供您參考
我們已經知道,影像組學是在一羣影像上提取出肉眼看不見的“特徵”,結合臨牀的資料與病理標準,分析他們,並且構建出一定的模型,應用於患者的影像上,從而協助臨牀醫生,判斷患者是否需要用藥?腫瘤是良性還是惡性?腫瘤處在第幾期?他們的3年生存概率為多少?他們接下來的最佳治療方案是?
在上一篇我們談到“影像組學的官方定義”,後台大部分的留言並不是在提問,而是在。。。催更!好吧,如今……她來了!
“影像組學可以應用在什麼方面?”這是許多研究者經常和我交流的問題。這個問題非常大,相信大家理解後感覺絕大部分的影像類研究都能蹭上一點組學技術。
小編根據文獻和自己的經驗簡單總結了影像組學的幾個應用方面,從以下十大維度供大家參考!(所有參考文獻下載鏈接見文末)
【第一維度】
大咖田捷教授在其PPT內展示,圍繞基於結直腸癌診療全過程,説明人工智能中的影像組學是如何使得醫學治療更加精準的,這個案例從臨牀出發,提出3個問題:
(1)術前,新輔助治療是否達到pCR?
(2)術中,是否需要進行淋巴結清掃?
(3)術後,是否需要進行輔助放化療?
“影像組學可以應用在什麼方面?”這是許多研究者經常和我交流的問題。這個問題非常大,相信大家理解後感覺絕大部分的影像類研究都能蹭上一點組學技術。
我們可以看出這麼一個邏輯:
參考文獻:1.1、1.2、1.3
在術前階段:
外科大夫一般會對患者做一個輔助化療(PCR)來控制癌症發展,後續再對輔助化療失敗(或者説還尚存癌細胞)的進行開刀手術。這裏可以利用影像組學將PCR緩解的患者挑出來,這部分病人即可免除開刀手術,只需要密切觀察和隨訪即可。文章就發表CCR,現IF10.1分
在術中階段:
經過化療後,有大部分患者沒有達到PCR緩解效果,因此需要進行開刀手術進行淋巴結清掃。在實際臨牀清掃過程結果顯示,有70%的患者竟然是假陽性!因此針對患者病理、影像數據,可以利用影像組學方法,給出是否需要進行淋巴結清掃的答案,可以將假陽性率從70%降到30%!該文章發表JCO上[1.2],目前IF為32.956!!!合作單位是廣東省人民醫院劉再毅大咖!(參考下圖)
在術後階段:
一般術後均會進行放化療以防手術後的復發或轉移。但他們發現,實際上經過手術後的只有20%的結直腸癌患者會有遠處轉移情況,這意味着約有80%的患者花了錢且承受放化療的痛苦,來預防不可能發生(或者説發生的概率極小)的遠處轉移。因此他們利用影像組學技術,把發生轉移概率較大的患者挑選出來,再去做放化療,其他患者只需要後續持續隨訪、觀察即可。文章是上篇提到的影像組學提出者lambin發表的,同樣是JCO
這個維度需要從長計議,首先是圖像的標準化採集,各位學者以後當上主任後,在診治疾病的同時,建議將病例標準化採集、保存,日後必定有大用處。
【第二維度】
根據疾病就診、發現、治療和預後等過程,結合臨牀的應用與作用,一般可以總結為以下4個方面:
第一方面為輔助鑑別診斷,可以理解為腫瘤(分子)分型,其核心為對(轉移)腫瘤進行分類,以協助臨牀的判斷、提高疾病診斷效率和提供治療方式參考。如乙肝纖維化程度等同病理診斷[2.1];肺結節良惡性鑑別;非小細胞肺癌(NSCLC)分類[2.2];原發、轉移瘤鑑別等;HIV損傷鑑別[2.3];眼眶淋巴瘤和炎性假瘤的無創定量鑑別[2.4];如肝纖維化鑑別以取代肝穿(理論上)。
第二方面為腫瘤分期(分級),其臨牀目的為提高患者生存期。主要核心算法為生存分析。如非功能性垂體瘤亞型的精準預測[2.5]、非小細胞肺癌病理分型的精準預測[2.2]、肥厚型心肌病[2.6]。
第三方面為預後評估/監測(post-treatment monitoring)/療效預測,其臨牀目的為緩解患者醫療負擔[2.7-2.9],如肺癌頭頸癌預後分析、晚期肺癌預後預測[2.10]、對病患的鼻煙癌給出判斷及生存期預測、晚期肺癌EGFR突變靶向治療無進展生存期進行個性化的精準預測[2.11]、腫瘤壞死&復發[2.7/2.12]。
第四方面為治療方案,其目的是緩解醫院就診壓力,提高就診、治療效率,如晚期直腸癌放化療後的反應研究[2.13],EGFR突變/風險分級[2.14]。
【第三維度】
部位相互參考。從疾病或者部位角度,我們可以快速閲覽各類可應用的疾病:
腦腫瘤[2.12]、鼻咽癌(晚期鼻咽癌無進展生存期精準預測[3.1/3.2])、食管癌[3.3]、肺癌(預測肺癌遠端轉移[3.4])、乳腺癌(組學特徵與乳腺癌復發風險聯繫[發表Nature、新英格蘭、JCO等3.5-3.7]、影像組學評估乳腺癌患者新輔助化療患者的反應[3.8])、結直腸癌[1.2]、膠質瘤、胃腸道癌(胃癌腹膜轉移預測[3.9])、腎癌、膀胱癌、前列腺癌、頭頸部腫瘤、婦科腫瘤、甲狀腺等太多就不一一列舉了。
【第四維度】
影像&基因。從生物技術角度看,影像組學是推斷蛋白質基因組和表型信息,因此目前更傾向把他們結合一起分析即放射基因組學(Radigenomics)分析,如影像與基因迴路關聯分析(論文);將影像組學特徵基因組聯合進行miRNA關聯分析[4.2竟然發表了6分+的Cancers!];將腫瘤的水腫/浸潤部分或空間異質性與基因組信息相關聯[4.3,IF=10];MGMT啓動子的甲基化狀態[4.4]、基因突變(影像組學實現結直腸癌KRAS/NRAS/BRAF基因突變精準預測[4.5/4.6/4.7])。
【第五維度】
方法學比較。從方法學上,分析的角度有監督學習(考慮金標準)、無監督學習(不考慮金標準)等模式,業界內基本為監督學習,其主要的模型為統計機器學習,多數為二分類、多分類和迴歸模型等,如果結合隨訪時間,隨訪重點事件,就可以構建生存分析迴歸模型;無監督模型主要是單純分析組學特徵與疾病的相關性,不存在病理的比較,主要方法有聚類分析、因子分析等;也可以和deep learning深度學習方法相結合,這個方向就多了,目前業界也都在探索中[5.1/7.1]。
【第六維度】
二維、三維影像的比較。主流的影像組學文章重在腫瘤鑑別,運用三維數據,那麼是否可以從二維的角度去評估呢?能否運用二維數據的最大或者某幾層去評價?再做個比較?趕快查查你的方向是否有人做吧,動起來![6.1/6.2]
【第七維度】
影像成像技術的影響分析。如田教授PPT內,超聲中的彈性成像應用中,炎症會不會對診斷結果產生影響?(參考下圖)[7.1]
【第八維度】
模態比較。可以將多模態一一對比、或者融合做比較,比如CT中的平掃、增強、能譜CT等,MRI中有T1WI、T2WI、FLAIR、SWI、PWI、SWAN、灌注DSC等不同序列圖像;PET影像中根據藥物不同也可以得出不同種類影像,如FDG、MET、PSMA等藥物;對比劑增強;PET/CT融合圖像;PET/MR融合圖像等。
【第九維度】
研究對象。在常人眼裏,一個病例就是一個樣本,科裏只有50個病例,一眼看,“做不了組學”,結束,就這樣錯過一個機會。其實不然,深入討論,存在許多內幕,研究對象不一定按照傳統思想(以病例為單位),打開統計學角度的思維,樣本其實可以是一個病灶、一層CT/MR圖、甚至是患者其中一個時間點的影像,還可以是什麼?那就得根據實際病種的特殊性考慮了。但是!這些樣本可以直接簡單粗暴拿來建模分析麼?(課後作業吧,好好思考哦)
【第十維度】
設備之間的比較。説實話,不同影像設備之間的差異性確實非常大,GPSU各大廠家設備雖説都能成像,肉眼看差不多,其內在重建算法、設備參數調整、分辨率、藥劑藥量、等待時間等多種因素導致最後成像差異比較大,但是是否可以從統計學角度思考,控制變量法,找到只有部分差異的設備,進行比較呢?如某廠家新款設備發佈(一般這種都是基於上一款迭代而成的),或許新增某項功能,但是成像效率可能更高,那理論上是否可以代替上一代呢[10.1]?這也是一種思路供大家思考。
以上10個維度僅供大家思考,如果大家有新想法,歡迎留言區分享一起學習!
那到底有什麼疾病可以應用影像組學?想了解這個問題,需要從影像組學的基本條件開始瞭解。
第一,必須要依託於某種影像,如平掃/增強CT、磁共振MRI、PET影像、超聲、X-ray等;
第二,能夠在該影像上勾畫出某個區域。由於大部分影像是切片式斷層顯像(腫瘤當然也是鑲嵌在某些層面上)。因此一般的操作是,在二維的圖像上勾畫,形成ROI(region of interest),其他層類似操作後,合併起來,可以以三維立體的形式展現某個腫瘤,進而形成VOI(volume of interest),如下圖B至A;當然,單張圖像如X射線也是可以操作的,只需在一張圖上進行勾畫即可。
第三,針對某種疾病,在您的數據庫內存在大量病例集,可以重複第二個條件,再根據臨牀需求,實際病種、用統計學方法實現量化。