訓練AI模型,要多少數據?拆解企業人工智慧專案為何難落地
2020.12.09 by 若水AI Blog
企業導入AI似乎已成為一種趨勢,但是訓練AI模型,需要多少數據?其背後的商業命題與成本又該如何解決?帶你來一起窺探AI專案背後的秘密!
企業的AI專案在釐清問題本質、找到命題之後,首先會面臨到一個問題:收集數據(Data Collection)和建立AI模型(Model Establishing),該以什麼作為評估基準?
訓練一個AI數據模型,需要多少數據?
訓練AI數據模型時,其實有三個要素,彼此互相影響。分別是: 商業問題的複雜度 、 AI模型複雜度 (Model Complexity),以及 數據複雜度 (Data Complexity)。
因此,如果想知道需要多少訓練數據(Training Data),建議先釐清:這個AI專案到底要處理什麼問題,以及這個問題有多複雜?確定之後,再來判斷應該選用哪種程度的模型來做訓練。根據不同的商業命題複雜度,用不同複雜度的模型和精準數據彼此搭配,找出最佳平衡,才能讓AI專案順利落地。
但光憑想像,很難評估實際的AI數據量和成效,所以開始AI的第一步,需要先透過POC概念驗證(Proof of Concept)實驗來找答案。
簡單來說,就是針對不同複雜程度的商業問題,嘗試選用不同複雜度的模型搭配測試,直到模型跑出來的曲線,符合理想目標。
一般狀態下,假設商業問題本身的複雜度很高,我們會預期要選擇複雜度較高的模型。但是如果數據量不足,那麼選擇複雜度較高的AI模型,反而會比用簡單的AI模型效果還差。(上圖左上、右上,分別代表複雜度10和複雜度50的問題,可以明顯看出複雜的模型曲線比較接近學習數據集(Dataset),但是在測試數據集上的誤差 Eout,反而比簡單模型還差了許多。)
上圖的左下和右下,是以不同複雜度的模型去做POC,跑出來的結果曲線圖。藍色線代表的是學習數據(Training Data)成效,紅色線代表的是測試數據(Testing Data)成效。最理想的POC目標,應該是兩條曲線很貼近彼此,而且位置越低越好。
我們會發現,左下這張圖的兩條曲線雖然彼此貼近,但是就算增加數據,也無法降低誤差。這表示模型偏誤(Bias)高,效果不佳,應該要增加模型複雜度 (Model Complexity)。
增加模型複雜度之後,就會像右下這張圖,藍色曲線(學習數據)雖然數值很低,但在學習數據不足的情況下(灰色區塊),紅色曲線(測試數據)卻「飄」得太高。這表示模型變異誤差(Variance)高,應該要增加學習數據。最後在慢慢增加模型複雜度以及學習數據之後,我們就可以達到理想的結果(兩條曲線很貼近彼此,而且位置越低越好)。
數據哪裡來?發展AI人工智慧之前,先建立數據流
先前我在文章裡提到,很多企業會急著開發AI模型,但AI專案落地經驗的三大關鍵之一,其實是先確認:是否已經準備好數據了?如果沒有這樣的能力,談AI落地其實有點好高騖遠。
AI數據收集(Data Collection)最大的挑戰,在於針對不同型態的命題,會產生不同的AI數據需求,因此需要建立的「數據流」(Data Pipeline),AI數據處理 (Data Processing)和數據標註(Data Annotation)的模式及流程也會有所不同。
發展AI之前,如果能建立起從數據收集(Data Collection)、數據處理(Data Processing)到AI模型學習的數據流(Data Pipeline),並確保可以順暢運行,實際訓練AI模型時才會省力很多。
數據不夠或太多怎麼辦?
Google開設的機器學習(Machine Learning)課程中,第一項原則就開宗明義地指出:「Don’t be afraid to launch a product without machine learning」。
如果你的產品或業務不一定需要用到機器學習(Machine Learning),那就別用,除非你有AI數據。有數據,再來談機器學習(Machine Learning)。但在業界的實際狀況,大家不是沒有數據,而是只有一些些,這時候該怎麼辦?我會建議,先從小地方開始做起,也就是從POC專案著手。
POC專案要有具體成效,除了要注意設計專案、實驗模型的指標(Metrics),企業最重要的是要先定義清楚:AI專案要達到什麼樣的指標,才算是成功?這樣最後做出來的成果,才會真正符合商業目標。
如果今天不是沒有AI數據,而是數據很多,又該從何下手呢?
我建議,嘗試減少訓練AI人工智慧時的「 數據大小 」和「 數據筆數 」。
過去曾經處理過一個AI專案,數據多達2億筆。第一次實驗,把數據全部餵進AI模型,取得結果。第二次,只拿其中有代表性的500萬筆出來訓練人工智慧。
猜猜結果如何?兩次實驗的表現,只差異不到1%。
所以,如果企業對於AI數據的品質和數量有一定程度的自信根據,其實不用把數據全部餵進AI模型訓練(Model Training),只用有代表性的AI數據來訓練就可以了。市面上很多常見的AI工具(Cluster),可以做到這點,幫助省時省力。
AI模型訓練,記得校準商業目標
企業發展AI人工智慧的最終目的,還是希望能 達到商業目標,創造價值 。
所以,訓練AI模型時,團隊如果不知道如何判斷哪個指標,對AI模型學習來說比較重要,建議回歸初心,重新釐清「 這個專案想達到的商業目標是什麼 」。
比方,趨勢科技(Trend Micro)要開發一個能夠判斷電腦病毒的AI,但是勒索病毒(denial-of-access attack)和廣告病毒對客戶的傷害程度大不相同。這時候,工程師就會針對這個命題,餵給AI模型不同病毒種類的數據,讓它學會判斷不同病毒的重要性,分辨出哪些病毒比較嚴重不能有判斷錯誤,而哪些病毒比較無害,不一定要做到一百分。
最常見的訓練方法,是用成本函數(Cost Function)的方式,訓練完再回去調整AI模型的評分(Rating),用加扣分的方式,告訴機器它的學習表現是好是壞,做對就加分,做錯就扣分。
上述評分原則的制定,和企業的商業價值考量息息相關,所以一般在組織分工,會由PM專案團隊負責判斷哪些項目重要,請資料科學家設計在上述Cost Function裡面。
很多人以為,AI人工智慧開發要做到很完美才行,但其實根據我們的經驗,只要AI開發成本符合預算、AI模型表現可接受(大約做到60–70分),而且結果有助於降低成本,就可以算是達到商業目標。反過來,即使AI模型表現非常好(高達90分),但成本卻遠超出預算,就不建議執行。
另外,因為POC階段會做很多的實驗,需要拿兩個穩定且可以互相比較的基準做A/B Test,所以做好基礎建設非常重要。
如果一個團隊裡面有三位工程師,但三個人做出來的結果都無法互相比較,那麼這個實驗就會變得霧裡看花,導致AI專案難以落地。
AI數據小學堂:模型指標(metrics)
在做模型實驗時,通常會用混淆矩陣(Confusion Matrix)的四種指標:TP(True Positive)、TN(True Negative)、FP(False Positive)、FN(False Negative),以及Count、Unique和Accuracy等等函數,來判斷這個模型的表現好不好。
P或TN值,代表模型辨識的答案正確,和預期結果一致。例如:模型正確判斷出「這是一隻貓」、「這不是一隻貓」。而FP或FN值,則代表模型的判斷錯誤,例如「明明是貓,模型卻說不是貓」、「明明不是貓,模型卻說它是貓」。
附圖:AI模型 若水國際
AI模型的POC概念驗證實驗怎麼做?
資料來源:https://www.bnext.com.tw/article/60440/ai-strategy-04?fbclid=IwAR1SOhjjGxypdGgOGfaBIl_a1IsZFJAQZ8J2aeDd98spbUfOdg7hiPQP7UA
同時也有10000部Youtube影片,追蹤數超過2,910的網紅コバにゃんチャンネル,也在其Youtube影片中提到,...
「false positive定義」的推薦目錄:
false positive定義 在 Eric's English Lounge Facebook 的最佳貼文
[時事英文] 死亡率(mortality rate)*、壓平曲線(flattening the curve)、活動限制 (lockdown):如何理解這些術語?
Language goes beyond a sealed system governed by a rigid set of rules. To fully understand the meaning of a word, one must look further than connotation and denotation, and also take context into consideration. In this case, one needs to examine the social, political, economic, and even statistical contexts of the terms.
語言並非只是受嚴密規則所約束的封閉系統。為了充分理解一個單詞的意涵,我們不僅要瞭解其本義與引申義,同時還要考慮整個語境。在此一情況下,應要考察社會、政治、經濟甚至統計上的語境。
Does “confirmed cases,” for example, mean the same thing in every country before and during the coronavirus outbreak? What about “lockdowns”? Does it mean that the government is advising people to stay home or is someone nailing your door shut? Some food for thought when reading about the coronavirus outbreak.
例如,在冠狀病毒爆發前以及爆發期間,「確診病例」在各國是否具有相同的含義?那麼,封鎖呢?這是否意味著政府正建議人們留在家中,抑或有人正把你家大門釘上?以上是在閱讀疫情的相關資訊時所引人深思的一些事情。
*同學好心的補充說明:「mortality rate」通常指的是死亡率,而「fatality rate」則是(因罹患某疾病)致死率。兩者都是重要的死亡指標,但計算公式不相同。
★★★★★★★★★★★★
《紐約時報》報導:
Making sense of the coronavirus pandemic requires getting up to speed on semantics as much as epidemiology. Government officials and health care professionals toss off mentions of mortality rates, flattening the curve and lockdowns, assuming that we know what they mean. But the terms mean different things from country to country, state to state, even city to city and person to person. Officials use the same phrases about mass testing, caseloads and deaths to describe very different situations. That makes it hard to give clear answers to vital questions: How bad are things? Where are they headed?
1. make sense of… 理解……
2. get up to speed on 了解最新情況;跟上進度
3. toss off 輕而易舉地處理*
弄懂新型冠狀病毒大流行,既需要了解流行病學的最新情況,也需要在語義學上跟上形勢。「死亡率」、「壓平曲線」和「活動限制」等說法從政府官員和公共衛生專業人士的嘴裡脫口而出,他們假設大家都知道這些詞的意思。但對不同的國家、不同的州,甚至不同的城市和個人來說,這些術語有著不同的含義。 官員們使用「大規模檢測」、「病例數」和「死亡病例數」等相同的措辭,來描繪非常不同的情況。這令一些重要的問題難以得到明確的回答:情況有多糟糕?正在向什麼方向發展?
toss off: https://www.merriam-webster.com/dictionary/toss%20off
★★★★★★★★★★★★
People search for insight by comparing their countries to those that are further along in the epidemic. But if the terms are misleading or used in differing ways, the comparisons are flawed. Also, the statistics and vocabulary offer a false sense of precision while in reality, the information we have shows only a fraction of what’s going on. “The new cases or deaths each day are given as exact numbers, and we’re trained to take that at face value,” said Mark N. Lurie, an epidemiologist at Brown University’s School of Public Health. “But those are far from exact, they’re deeply flawed, and their meaning varies from place to place and from time period to time period.”
4. be further along in 在……上走得更深遠
5. at face value 根據外表;從表面上看
人們將自己的國家與那些經歷了疫情更多階段的國家進行比較,以求了解情況。但是,如果這些詞語使人產生誤解,或在使用方式上存在差異的話,這種比較就是錯誤的。此外,這些統計數據和詞彙給人以精準的假象,而現實是,我們所掌握的信息僅代表冰山一角。「每天的新增病例數或死亡人數都是以精準數字的形式通報的,我們被訓練成只看這些表面數字。」布朗大學公共衛生學院流行病學家馬克・盧裡說。「但這些數字遠非精準,而且有嚴重缺陷,它們的含義因不同的時間和地點而不同。」
★★★★★★★★★★★★
I. Confirmed Cases 確診病例
Countries vary wildly in testing for the virus and how they report the numbers, and experts say most infections are going undetected. So the publicized national tallies are rough, incomplete pictures that may not be all that comparable. And that’s if countries are forthcoming about their data.
6. vary wildly in 在……上有極大的差異*
7. publicize 公布;宣傳
8. national tallies 國家的統計數據
9. incomplete pictures 不完整的狀況
10. forthcoming 樂於幫助的
各國在病毒檢測以及通報數字的方式上有很大差異,而且專家們說,大多數感染都沒有被發現。因此,各國公布的只是粗略的數據,這些並不完整的描繪也許沒有多少可比性。這還是在假設各國願意提供數據的情況下。
wildly: https://bit.ly/2wkgPjo
⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹
Officials in the United States say that China, which has reported more than 82,000 infections, has understated its epidemic. Until this week, the Chinese government excluded those patients who tested positive for the virus but had no symptoms. China also doesn’t say how many tests it has conducted, and doubts have been raised about whether it has tested extensively in Xinjiang, the province where it holds hundreds of thousands of Muslims in indoctrination camps. The Covid Tracking Project, run by The Atlantic, has tried to compile all the numbers in the United States and reports more than 1.2 million tests so far, over 3,600 per million people.
11. understate 未如實陳述;避重就輕地說
12. exclude 把……排除在外
13. indoctrination camps 再教育營
14. run by 由……經營
中國通報的累計確診病例超過8萬2千例,美國官員說,中國淡化了國內的疫情。直到本週前,中國政府一直把病毒檢測呈陽性但沒有癥狀的感染者不納入確診病例。中國也未公開接受檢測的人數,而且外界已對中國是否在新疆進行了大規模檢測表示懷疑,中國在那裡把數十萬穆斯林關進了拘禁營。《大西洋月刊》的新冠肺炎追蹤計劃試圖匯總美國的所有數據,它統計到的數字是,美國迄今為止進行了逾120萬例檢測,平均每百萬人超過3600例。
★★★★★★★★★★★★
II. Widespread Testing 大規模檢測
It matters not only how many people are tested, but also when, and who they are. Once again, countries differ, shaping what the numbers mean. A few countries, like South Korea, Australia and Singapore, got serious about mass testing early on. They used the information to do ambitious contact-tracing — finding and testing those who had recently been near infected people, even if they had no symptoms.
15. it matters 重要的是
16. not only……, but also…… 不僅……,而且……
17. get serious about 認真對待某事
18. early on 在早期
重要的不只是多少人做了檢測,檢測時間和檢測對象也很重要。各國在檢測時間和對象上也有不同,這讓數字的含義也有所不同。韓國、澳洲和新加坡等少數國家很早就開始認真地進行大規模檢測。他們利用這些信息嚴格追蹤接觸者,也就是找到並檢測那些親密接觸者,即使他們沒有癥狀。
⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹
But most nations with large numbers of cases have done less testing, waited longer to do it in bulk, and made little attempt at contact tracing. They find themselves playing catch-up with the virus, ramping up testing after their outbreaks had already mushroomed. They detect more cases, but by then it’s hard to tell how much of that growth is the expanding epidemic and how much is expanding surveillance. Unable to meet the demand, they often limit testing to the sickest patients and health workers.
19. in bulk 大量
20. make little attempt 幾乎未做嘗試
21. ramp up 增加*
22. mushroom (v.) 迅速增長;迅速發展*
23. meet the demand 滿足需求
24. limit……to 將……限制在……
但大多數存在大量確診病例的國家進行的檢測數量都比較少,都是等了更長時間後才開始進行大規模檢測,而且對追蹤接觸者的工作幾乎未做嘗試。這些國家發現自己在拚命追趕病毒的傳播,在疫情迅速蔓延後才加大了檢測力度。這些國家都檢測到了更多的病例,但此時已很難判斷新增病例中有多少是疫情不斷擴大的結果,有多少是擴大疫情監測的結果。由於無法滿足檢測需求,這些國家通常只能對病情最嚴重的患者以及衛生工作者做檢測。
ramp up: https://www.collinsdictionary.com/dictionary/english/ramp-up
mushroom: https://www.ldoceonline.com/dictionary/mushroom
★★★★★★★★★★★★
III. Fatality Rates 致死率
It has been stated time and again: Italy and Spain have high mortality rates among coronavirus patients, Germany’s is low, and China’s is somewhere between. It may not be that simple. Counting the dead is as flawed and inconsistent as counting the infected. Recent reports say that mortuaries in Wuhan, China, where the disease was first discovered, have ordered thousands more urns than usual, suggesting a much higher death toll than the city’s official count, 2,535. The outbreaks in Wuhan, and parts of Italy and Spain, overwhelmed hospitals, forcing many sick people to ride it out at home. No one knows how many people have recovered or died without ever being tested. And if only the sickest patients are tested, then the number of infections will appear smaller and the percentage who die will seem higher.
25. time and again 屢次;一再
26. as flawed and inconsistent as 像……一樣存在缺陷與不一致
27. mortuary 停屍間(太平間)
28. urn 骨灰罈
29. suggest 暗示*
30. death toll 死亡人數
31. to ride it out 安然渡過(難關)*
一個反覆提及的說法是:義大利和西班牙的新冠病毒肺炎患者死亡率高,德國的低,中國的居中。情況也許並不那麼簡單。統計死亡人數和統計感染人數一樣存在缺陷和不一致的地方。最近有報導稱,武漢的殯儀館訂購的骨灰盒數比該市官方統計的2535例死亡高出好幾千,表明死亡人數遠高於官方公布的數字。新冠病毒最早就是在這座城市發現的。武漢以及義大利和西班牙部分地區的疫情使醫院不堪重負,許多患者被迫在家中渡過難關。沒人知道究竟有多少人在從未做檢測的情況下康復或死亡。如果只對病情最嚴重的患者做檢測的話,感染人數看上去會更低,而死亡率看起來將更高。
suggest: https://www.oxfordlearnersdictionaries.com/definition/english/suggest
ride sth out: https://bit.ly/2Rd6Tj6
★★★★★★★★★★★★
IV. The Peak 疫情高峰
Officials often talk about when the epidemic peaks or plateaus — when a country “flattens the curve.” But they rarely specify, the peak of what? And how can we be sure we’re past it? When an outbreak is growing unchecked, more people become infected and more die each day than the day before. On a graph, the curve showing the daily count of new cases has gone from rising sharply to moving sideways — the curve has flattened — and even begun to move downward. That is one corner being turned: The rate of the spread of the virus has slowed down. It takes longer to turn another: the rate of people dying.
32. from rising sharply to moving sideways 從急劇上升到橫向移動
33. turn the corner 好轉;度過難關*
官員們經常提疫情何時達到高峰或進入平台期,也就是一個國家「壓平曲線」的時候。但他們很少具體說明是什麼達到了高峰,以及我們怎麼能確定高峰已過?當疫情不受控制地發展時,每天的感染和死亡人數都比前一天多。曲線圖上顯示的每天新增病例數從急劇上升變得趨於平緩——曲線已被壓平——甚至開始下降。這是一個轉折點:病毒的傳播速度已經放緩。度過死亡人數的轉折點則需要更長的時間。
turn the corner: https://www.merriam-webster.com/dictionary/turn%20the%20corner
⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹
But even when those curves flatten, the epidemic still has not “peaked” by another crucial measure: the number of active cases. That figure continues to rise until the number of patients who either die or recover each day is larger than the number of new infections. To ease the staggering load on health care systems, the active cases curve must also flatten and then fall.
34. peak (v.) 使……達到頂峰
35. either……or…… 不是……就是……
36. staggering 沉重的;巨大的
但是,即使這些曲線已趨於平緩,疫情的另一個重要衡量指標——現存確診病例數——仍未達到「峰值」。在每天的死亡或康復患者人數超過新增感染人數之前,這個數字還將繼續上升。為緩解衛生系統的沉重負擔,現存確診病例數的曲線也必須先趨平,然後下降。
peak: https://www.oxfordlearnersdictionaries.com/definition/english/peak_2
★★★★★★★★★★★★
V. Lockdowns 封鎖(活動限制)
More than two billion people, including most Americans, are living under something usually called a lockdown. But there is no set definition of that word — or related terms like stay-at-home mandates and social distancing — so the details differ from place to place. The biggest differences may be in enforcement. Some places, like those in the United States with lockdowns, mostly rely on people to follow the rules without coercion. But Italy and others have deployed soldiers to ensure compliance, and French police have fined hundreds of thousands of people for violating restrictions. China, in addition to using security forces, mobilized an army of volunteers, ratcheting up social pressure to obey.
37. set definition 固定的定義
38. enforcement 實施;執行
39. rely on 仰賴;依靠
40. deploy 部署
41. compliance 服從
42. fine 處……以罰款(或罰金)
43. in addition to 除了……之外
44. mobilize 動員
45. ratchet sth up/down 逐步增加/減少
全球有20多億人,包括大多數美國人正生活在一般被稱為「活動限制」的狀態下。但這個詞沒有固定的定義,其他的相關說法,比如政府的「待在家裡」和「保持社交距離」令也沒有明確的定義,所以各地的具體做法也不一樣。最大的不同可能在執行方面。有些地方,比如美國有限制令的地方,主要依靠人們自覺遵守,而非強制。但義大利等國為確保限制令的落實而動用了軍隊,法國警方還對數已十萬計的違反禁令者處以罰款。中國除了使用安全部隊外,還動員了一支志願者大軍來加大服從封鎖隔離措施的社會壓力。
⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹⊹
Italy’s experience shows the looseness of the term. It has gone through several phases of restrictions, applying them to more people, making them stricter and increasing enforcement. A few weeks ago, a person could travel around Italy for a valid work or family reason. Now, people are fined for nonessential walking too far from their homes. But each stage was widely called by the same name: lockdown.
46. looseness 鬆散
47. valid 確鑿的;合理的;有根據的;讓人信服的
義大利的經歷表明了這個詞語解釋上的自由。義大利的封鎖令經歷了幾個階段,適用範圍擴大到越來越多的人,封鎖及其執行也變得越來越嚴格。幾週前,人們還可以因為正當的工作或家庭原因在義大利旅行。現在,人們會因不必要的離家太遠的走動而被罰款。但禁令的每個階段用的都是同一個泛泛的名稱:活動限制。
《紐約時報》完整報導:https://nyti.ms/2XcCUeT
圖片出處:https://fxn.ws/34gwSeH
★★★★★★★★★★★★
時事英文大全:http://bit.ly/2WtAqop
如何使用「時事英文」:https://bit.ly/3a9rr38
#疫情英文
false positive定義 在 當張仲景遇上史丹佛 Facebook 的最佳解答
科技化的檢測真的那麼可靠嗎?
今天早上提早到診所,本來想寫一篇文章來討論前一陣子在矽谷鬧得很大的Theranos醜聞,為了客觀與精準,我花了不少時間查閱細節及各方的評論。我看到了一篇寫的很好的文章:Theranos Is Wrong: We Don’t Need More Blood Tests,主要在討論為什麼血液檢測及其它科技化的檢測並非一般人想像的那麼有用處,甚至會造成很多的誤導。我建議讀者自己看一下原文,如果想知道Theranos這個驗血公司的問題,也可以上網查一下「Theranos」及創辦人「Elizabeth Holmes」,我在這裡只想重複解釋一下這篇文章中的一個重點,那就是「檢測的基本統計問題」。
沒有一個血液檢測或其它科技化的檢測是百分之百準確的,如果一個檢測有90%的機率檢查出來一個確實有患病的病人,基本上已經算是很不錯的檢測,一般大眾也會覺得這樣的檢測值得信賴。然而,真的值得信賴嗎?
為了回答這個問題,原文解釋了「檢測的基本統計問題」。假設一個檢測能確診出90%患有某個疾病的人,10%的機率會遺漏掉(false negative),另一方面,有5%的可能性會誤診,會誤把沒有患病的人檢測成有患病的人(false positive),這在各項的檢測裡,也是非常真實會發生的情況,這個5%的假設並不離譜。另外,再假設人群大眾裡大約有2%得到那個疾病。那麼,如果我們抓一千人來做檢測,檢測結果顯示得病的人,到底有多少人是真的得病?90%?錯了,差遠了!
以機率而言,一千個人中有20個人真的得病,這20個病患有90%的機率會被檢測出來,也就是18人。一千個人中有980個人是健康的,但是,他們之中有5%的人會被錯誤檢測為有得病,也就是49個健康的人,被誤認為是病患。
也就是說,我們抓一千人來做檢測,會出現67個「檢測出來有問題」的人。但是,在這67個「病患」當中,只有18個人是真的得病,49個人其實是健康的。「準確率」只有27%!
沒想到吧!所以,下一次有人告訴你某個檢測有90%的準確性,要你及早檢查及早治療,先別急,你得多去了解這個檢測背後的意義及統計問題,我們暫時先不管西醫對這個疾病的治療方式是不是合理、有效,重點是,即使檢測出來你有病,你也很可能根本沒有病!
http://fivethirtyeight.com/…/theranos-is-wrong-we-dont-nee…/
P.S. 文章剛剛貼上網,一位高科技的好朋友看到了,馬上在午餐時間打電話來。他說他實在搞不清楚兩者為何有如此大的差別,明明說準確率是90%,而「false positive」誤診率是5%,那麼一個有病的人去檢測,不是應該有90%的機會被檢查出來嗎?而沒有病的人,不是應該只有5%的機會被誤診為有病嗎?但是,他又無法找出文章中「準確率只有27%」推理上的錯誤,每一個推理步驟都很合理。這位朋友非常困惑,覺得這真是一個「mind boggling」的「puzzle」 。
想解開這個思維上的「衝突」,必須從原先如何定義一個檢測的「準確率」來討論。討論剛開始說,一個檢測有90%的機率可以檢測出一個「有病的樣本」,並不是說「同一個有病的病患」檢測一百次,有90次檢測會顯示「有病」,有10次檢測會顯示「沒有病」。這個「90%」的是說,我們拿「100個不同的病患」去檢測,有90個病患的檢測會顯示「有病」,有10個病患的檢測會顯示「沒有病」。以大量不同病患檢測結果來統計,才可以減少「個體差異」在統計上造成的偏差,不然,A病患檢測一百次,有90次檢測出來,B病患檢測一百次,有30次檢測出來,那我們到底是取90%還是30%?
同樣的,一個檢測有5%「false positive」的誤診率,也不是說「同一個沒有病的人」檢測一百次,有95次檢測會顯示「沒有病」,有5次檢測會顯示「有病」。這個「5%」的是說,我們拿「100個不同的沒有病的人」去檢測,有95個人的檢測會顯示「沒有病」,有5個人的檢測會顯示「有病」。
換句話說,整個討論都是基於「很多不同的樣本」,不是針對某一個「單一特定的樣本」。當我們把討論角度從「大量樣本」轉向「單一特定樣本可能遇到的情況」,也就是指你這個特定的人走進醫院去做某一個檢測的時候,所有的數字也得如文章中一步一步的推演,才能反映「單一特定樣本」檢測結果的分布機率,不能直接把那個90%或5%當成「單一特定樣本」的檢測結果分布機率。當你是那1,000個走進醫院做檢測的人之中的一個,又很不幸的被檢測出「有病」,那麼你真的有病的機率是多少?是27%, 不是90%。這點也說明,一個檢測有非常小的「false positive」誤診率,往往比「能夠檢測出來得病」的機率更重要。
還是沒搞懂?花些時間多想想吧。統計是最常被少數人拿來誤導多數人的工具!