科技化的檢測真的那麼可靠嗎?
今天早上提早到診所,本來想寫一篇文章來討論前一陣子在矽谷鬧得很大的Theranos醜聞,為了客觀與精準,我花了不少時間查閱細節及各方的評論。我看到了一篇寫的很好的文章:Theranos Is Wrong: We Don’t Need More Blood Tests,主要在討論為什麼血液檢測及其它科技化的檢測並非一般人想像的那麼有用處,甚至會造成很多的誤導。我建議讀者自己看一下原文,如果想知道Theranos這個驗血公司的問題,也可以上網查一下「Theranos」及創辦人「Elizabeth Holmes」,我在這裡只想重複解釋一下這篇文章中的一個重點,那就是「檢測的基本統計問題」。
沒有一個血液檢測或其它科技化的檢測是百分之百準確的,如果一個檢測有90%的機率檢查出來一個確實有患病的病人,基本上已經算是很不錯的檢測,一般大眾也會覺得這樣的檢測值得信賴。然而,真的值得信賴嗎?
為了回答這個問題,原文解釋了「檢測的基本統計問題」。假設一個檢測能確診出90%患有某個疾病的人,10%的機率會遺漏掉(false negative),另一方面,有5%的可能性會誤診,會誤把沒有患病的人檢測成有患病的人(false positive),這在各項的檢測裡,也是非常真實會發生的情況,這個5%的假設並不離譜。另外,再假設人群大眾裡大約有2%得到那個疾病。那麼,如果我們抓一千人來做檢測,檢測結果顯示得病的人,到底有多少人是真的得病?90%?錯了,差遠了!
以機率而言,一千個人中有20個人真的得病,這20個病患有90%的機率會被檢測出來,也就是18人。一千個人中有980個人是健康的,但是,他們之中有5%的人會被錯誤檢測為有得病,也就是49個健康的人,被誤認為是病患。
也就是說,我們抓一千人來做檢測,會出現67個「檢測出來有問題」的人。但是,在這67個「病患」當中,只有18個人是真的得病,49個人其實是健康的。「準確率」只有27%!
沒想到吧!所以,下一次有人告訴你某個檢測有90%的準確性,要你及早檢查及早治療,先別急,你得多去了解這個檢測背後的意義及統計問題,我們暫時先不管西醫對這個疾病的治療方式是不是合理、有效,重點是,即使檢測出來你有病,你也很可能根本沒有病!
P.S. 文章剛剛貼上網,一位高科技的好朋友看到了,馬上在午餐時間打電話來。他說他實在搞不清楚兩者為何有如此大的差別,明明說準確率是90%,而「false positive」誤診率是5%,那麼一個有病的人去檢測,不是應該有90%的機會被檢查出來嗎?而沒有病的人,不是應該只有5%的機會被誤診為有病嗎?但是,他又無法找出文章中「準確率只有27%」推理上的錯誤,每一個推理步驟都很合理。這位朋友非常困惑,覺得這真是一個「mind boggling」的「puzzle」 。
想解開這個思維上的「衝突」,必須從原先如何定義一個檢測的「準確率」來討論。討論剛開始說,一個檢測有90%的機率可以檢測出一個「有病的樣本」,並不是說「同一個有病的病患」檢測一百次,有90次檢測會顯示「有病」,有10次檢測會顯示「沒有病」。這個「90%」的是說,我們拿「100個不同的病患」去檢測,有90個病患的檢測會顯示「有病」,有10個病患的檢測會顯示「沒有病」。以大量不同病患檢測結果來統計,才可以減少「個體差異」在統計上造成的偏差,不然,A病患檢測一百次,有90次檢測出來,B病患檢測一百次,有30次檢測出來,那我們到底是取90%還是30%?
同樣的,一個檢測有5%「false positive」的誤診率,也不是說「同一個沒有病的人」檢測一百次,有95次檢測會顯示「沒有病」,有5次檢測會顯示「有病」。這個「5%」的是說,我們拿「100個不同的沒有病的人」去檢測,有95個人的檢測會顯示「沒有病」,有5個人的檢測會顯示「有病」。
換句話說,整個討論都是基於「很多不同的樣本」,不是針對某一個「單一特定的樣本」。當我們把討論角度從「大量樣本」轉向「單一特定樣本可能遇到的情況」,也就是指你這個特定的人走進醫院去做某一個檢測的時候,所有的數字也得如文章中一步一步的推演,才能反映「單一特定樣本」檢測結果的分布機率,不能直接把那個90%或5%當成「單一特定樣本」的檢測結果分布機率。當你是那1,000個走進醫院做檢測的人之中的一個,又很不幸的被檢測出「有病」,那麼你真的有病的機率是多少?是27%, 不是90%。這點也說明,一個檢測有非常小的「false positive」誤診率,往往比「能夠檢測出來得病」的機率更重要。
還是沒搞懂?花些時間多想想吧。統計是最常被少數人拿來誤導多數人的工具!
Dr.李 您最後的那句話真的很經典,文章起頭我就覺得怎麼會談這種西醫最愛唬弄無知病人的把戲,還好最後的那句話,真的有把主軸拉回來了
李醫師沒錯,主要是定義問題。Sensitivity, Specificity 以及 Precision 定義不同,不清楚可看看 Wiki。但一般人不可能了解這些定義,所以很容易被這些數字迷惑,以為這些檢測很可靠。
更大的問題是許多臨床醫療人員也分不清楚,往往告訴病人錯誤的訊息。
應該不只醫學吧?我覺得我們公司的財報和CEO 的presentation 一定也在完相同的把戲!大覺得時後決的統計學很無聊,現在月來越覺得這個東西在真的懂真的能操弄的人手裡還真能騙死人不償命。
是的,「數字」讓一般大眾覺得「很可靠」,其實,只要資訊不對等,擁有深入資訊的人很容易「操控數字」來誤導沒有深入資訊的人。更厲害的是,你都不需要多說,其他人會按照你給的數字,自己一步一步「推理」,自己說服自己,那是最聰明的洗腦方式。就拿華爾街的金融模型(Financial Modeling)為例,無論M&A收購的合理價錢,或是大公司未來十年的財務展望,洋洋灑灑20~30頁的spreadsheets,幾百個assumptons,只要在各個assumptons上微調,和不同演算方式的選擇,比如假設庫存61天或者59天、平均銀行貸款利率4%還是4.5%、國際市場匯率的改變、產品life cycle24個月還是26個月等等,完全不需要作假,只要調整sensitivity高的assumptons,你要什麼樣的結果,都可以「算出來」,即使其他財務專家來審視,也無法反駁,因為沒有人能保證幾年內銀行貸款利率不會調低0.5%、庫存不會改進兩天等等。