微軟公司(Microsoft)和華盛頓大學(UW)合作的團隊在基因存儲技術上獲得了一些可喜的突破——為數據建立了類似索引機制實現隨機讀取,並研發了「納米孔」讀取技術,測試了一個手掌大小USB設備即可讀取DNA數據的方法。 

人類的信息存儲方式,至今不能超脫信息在漫長的歷史長河中某個時間點會不幸丟失的命運。近期,美國最尖端的機構之一NASA也費了好大勁,才把幾十年衛星上使用的磁帶上的數據「挽救」出來。 

基因存儲技術是較為令人意外的數據存儲研發方向之一。儘管目前該存儲技術讀寫的速度非常的慢,但人類可以從基因中提取出數萬年前的信息,而且存儲空間開支非常小——已有人展示過在DNA材料上以每克能存儲215拍字節(Petabytes)的密度存儲了一個操作系統。 

但是這種存儲方式完全是無序的,要得到任何一部份數據,每次都要全部重新排序才能找到需要的部份。 

為DNA數據建索引 隨機讀取

美國知名科技網誌Ars Technica網站報道了微軟和華盛頓大學的研究者們的最新研究進展。他們開發出了讓基因存儲介質也像文件系統一樣工作的方式,即為DNA數據建立索引,可以在海量數據中實現隨機讀取。 

因存儲面臨的一個難點是,數據讀取較高的出錯率,特別是在有較大一部份數據是重複的情況下。比如存儲一副圖畫代表藍色天空的數據,或者一段音樂中沉寂的部份,都有很多重複的數據。基因存儲排序在遇到這些地方時,或者出錯率更高,或者停下無法繼續讀取。該研究團隊發明了一種隨機序列,利用邏輯異或操作加密,從而打破大段的重複數據,並降低出現新的大片同樣數據的幾率。 

該團隊還發明了一種較新的讀取技術,讓DNA介質列能擠過一個很小的納米孔而讀取其中每個DNA鹼基。這一技術讓大大縮小了讀取設備的空間開支,一個手掌大小的USB設備就能進行讀取。 團隊測得這一設備讀取出錯率高達12%,但該團隊已對其進行了不小的改善,對每個DNA序列平均讀取36次後,終於成功讀取了一整條人類基因組。 這樣聽起來DNA存儲技術好像接近可用了?其實還有很長的路要走——數據寫入DNA材料的速度還是相當慢的。按照目前每秒能讀取幾個KB的速度,這份研發成果報告的作者們計算後說,花一年時間寫入DNA材料的數據,只要約兩周就可以讀完了。◇