蘋果新發佈的iPhone X最近引爆話題,它的臉部辨識技術(Face ID)更是關注焦點。近日,蘋果在自家機器學習日報(machinelearning.apple.com)上,發表論文〈基於深度神經網絡的裝置端人臉辨識 〉(An On-device Deep Neural Network for Face Detection),披露臉部辨識技術演變。

蘋果最早發表的臉部辨識API是透過CIDetector達成的,這是一種針對靜態影像的特徵信息(包括人臉、幾何圖形、條碼等)辨識的影像處理單元。

後來,隨著深度學習出現、電腦視覺領域的應用,人臉辨識的準確性得到大飛躍,啟發了蘋果。相比傳統的電腦視覺方案,深度學習演算法能有更好的模型,也要求更多記憶、儲存和可計算資源。

雖然,目前的視覺識別模型多是基於雲介面的,但蘋果還是決定以iPhone為基礎來實現可深度學習的視覺識別技術,並完成高度臉部辨識準確性(state-of-the-art accuracy)。

不過對於終端機深度學習模型的要求也是高的:需要大型的照片資料庫,用極短的時間執行指令,並使用不多的功耗,也不能發燙。

2014年,蘋果開始著手基於深度學習的臉部辨識,當時的主流方案是OverFeat(利用卷積網絡特徵擷取算子,以達到圖片分類、定位和偵測),能有效地快速掃描物體影像。

深度學習提供一個電腦視覺框架(Vision Framework),但它還需要高度最佳化的成像管道。電腦視覺框架還透過有效處理和重複使用中間體來最佳化。

為了確保深層神經網絡在背景執行時的UI回應性和流暢性,蘋果為網絡每層分割GPU工作項,直到每個單獨時間少於1毫秒。所有這些措施綜合起來,確保用戶可享受本地、低延遲、隱私保護的深度學習演算法,而不會意識到手機每秒執行數百萬浮點的神經網絡運算。◇