2023年12月24日 星期日

AI算命?用大數據預測死因

 

圖片作者:ChatGPT

隨著電腦運算能力的提升、超級電腦的發明,人們發現可以開始利用「大數據」來做種種預測。於是開始有了依賴於各種機器學習技術和數據分析方法,包括統計模型、機器學習、深度學習、時間序列分析等技術,來進行醫療健康預測、金融市場預測、消費者行為預測、天氣預測等等。

雖然有時這些預測看起來像個笑話(還記得某大產險預測哪些星座的人特別容易出車禍那件事嗎?),但是大部分的預測系統還是都能提供企業一些有用的指引。

不過,這些預測系統到目前為止還是都有種種缺陷,所以也並不能完全依賴它們。當然,研究者也努力地開發新的系統,希望可以有更好的預測模型。

最近,由丹麥的研究團隊開發了一個新的模型,稱為life2vec。這個模型透過建立基於勞動和健康記錄的「生活序列」,訓練life2vec模型來理解概念之間的關係。研究團隊使用了丹麥的勞動力市場賬戶(AMRUN)和國家病人登記處(LPR)的資料,包含丹麥所有居民的事件數據。

然後研究團隊讓life2vec來預測2016年1月1日之後四年內一個人的存活概率,接著看看分析的結果。

以馬修斯相關係數(C-MCC)來衡量發現,life2vec在這項任務上的平均C-MCC得分為0.41(95%信心區間為0.40至0.42),這比基準模型高出11%。這顯示life2vec在預測早期死亡方面表現出色,超越了其他的基線模型。

這個新的模型為什麼能比以前的模型厲害呢?研究團隊認為,那是因為他們將個體的生活歷程視為一系列事件,並將這些事件以類似於自然語言處理中的詞嵌入方式來表示。這種方法使得模型能夠捕捉到生活事件之間的複雜關係和結構。另外是,他們利用進階的機器學習技術,如深度學習,對這些生活事件進行編碼和分析,模仿了處理自然語言的過程。當然丹麥政府提供了非常豐富的數據也是狠重要的一點。

從這個系統的開發,讓我們體會到我們的一生的確是由一系列的事件所組成的,而一個事件會導向另一個事件,有些時候我們自以為無意識下的決定,其實可能早就深植在我們的基因裡:三十年前抽的一根煙,可能就種下你現在肺裡的出現病變的遠因,但真的讓肺臟出現病變,還需要中間的其他行為來幫一把手,不是嗎?

參考文獻:

Savcisens, G., Eliassi-Rad, T., Hansen, L.K. et al. Using sequences of life-events to predict human lives. Nat Comput Sci (2023). https://doi.org/10.1038/s43588-023-00573-5

沒有留言:

張貼留言