現在很多研究人員都使用「機器學習」技術分析數據,從事科研項目。統計學專家發出了警告:我們能相信機器幫人類分析問題推理出來的結果嗎?

「機器學習」(Machine Learning)是人工智能領域的一個分支,通過設計和分析一些讓電腦可以自動「學習」的算法,從數據中自動分析獲得規律,並利用規律對未知數據進行預測。

在過去幾十年間,機器學習已經迅速發展涉及概率論、統計學、逼近論、凸分析、計算複雜性理論等多門學科。

萊斯大學(Rice University)的統計學專家Genevera Allen最近發出了警告,機器學習算法無法剝離數據中的「噪聲」(意即無效的、不可重複的數據)。因此目前很多科研成果都很難再現,已經達到危機的程度了。

Allen對英國廣播公司(BBC)說:「科學界普遍意識到,(科研成果)無法再現的問題已經成為危機了。我認為,這很大程度上是機器學習的應用帶來的後果。」

Allen舉例說,科研人員利用「機器學習」算法來分析收集來的基因組數據,找到其中的規律。很多這類的研究都無法再有成果。

Allen認為,解決這個危機的辦法,只有開發新一代能夠對其預測結果可靠性進行自我評估的「機器學習」算法。#