科學家們發現,人類基因組中包含的「真實」基因,或曰蛋白質編碼基因,比以前我們所認為的要少得多,這將會給生物醫學研究帶來重大改變。

早在上世紀九十年代初,科學家們就開始著手繪製人類基因組的整個DNA序列。

這項研究被稱作「人類基因組工程」,其目的是為了探究基因與疾病的聯繫,並了解基因組各種元素的功能與結構,例如哪些基因編碼蛋白質、哪些因素調節基因表達等。

該工程初步預測人類有40,000個基因可以給蛋白質編碼,而蛋白質這種大分子對身體組織和器官的良好運作起著至關重要的作用。然而,當這一項目在2003年接近尾聲時,對編碼蛋白質的基因數量的估計已被降至約20,000-25,000個。

從那時起,科學家們就開始努力確認最終的蛋白質組——即可以由基因表達的蛋白質總數——並且一直致力於了解這些蛋白質的基因表達如何在幾種疾病中發生突變。

為此,由位於西班牙馬德里的西班牙國家癌症研究中心生物信息學部門的Michael Tress領導的一個國際研究團隊,開始對三個主要蛋白質組數據庫中被認為可編碼蛋白質的基因進行了檢查。他們的研究結果發表在《核酸研究》(Nucleic Acids Research)期刊上。

至少2,000個是「偽基因」

團隊成員將三個蛋白質序列和基因標注數據庫中的蛋白質進行了對比,這三個數據庫分別為GENCODE/Ensembl、RefSeq和UniProtKB。

團隊發現,被列出的總數為22,210的蛋白質編碼基因中,衹有19,446個同時包含在三個數據庫中。然後,他們將這2,764個基因的差異放大,檢查了實驗證據和標注中可獲得的信息。有證據表明,這些基因中的大多數都是非編碼基因,或叫做偽基因。

團隊還發現,還有另外1,470個基因沒有蛋白質編碼基因的功能特徵或典型演化,但在三個數據庫中卻同時都被列為蛋白質編碼基因。

因此,研究人員相信,這三個參考數據庫目前對人類編碼基因數量的估算比實際至少多出了2000個,這也使大規模生物醫學實驗變得複雜。確定哪些是潛在的非編碼基因非常困難但至關重要,因為人類參考蛋白質組是大多數基礎研究和大規模生物醫學課題的支柱。

未來的研究方向

該團隊獲得的證據表明,人類或許衹有約19,000個編碼基因,但具體都是哪些基因,我們依舊不得而知。這一發現將給生物醫學領域帶來重大突破,進一步的研究工作也正在進行中。

「我們已經對其中的許多基因進行了詳細分析,」 Tress解釋說:「已經有300多個基因被歸類為非編碼基因。」◇