中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

以前要24小時(shí)的基因組測(cè)序,中國(guó)團(tuán)隊(duì)只用了7分鐘

2022-01-03 15:36
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
聽全文
字號(hào)

一到年關(guān),最不缺的就是各種盤點(diǎn)總結(jié)了。

這不,中國(guó)機(jī)構(gòu)實(shí)現(xiàn)了 7 分鐘完成 30X 測(cè)序深度人類全基因組測(cè)序的成績(jī),時(shí)隔 3 個(gè)月又被提了起來(lái)。

聽不懂沒關(guān)系,我們只需要知道,這個(gè)成就意味著基因篩查將有可能進(jìn)入常規(guī)體檢項(xiàng),遺傳病檢查也可能像咽拭子檢測(cè)一樣立等可取了。

比如鐮刀型貧血癥、先天性心臟病等所有由于基因異常引起的疾病,都可以通過基因檢測(cè)的方式早發(fā)現(xiàn)早預(yù)防早治療,特別是在生育健康方面意義重大。

但是目前的基因檢查項(xiàng)目大多只針對(duì)常見遺傳病做篩查,一些罕見的遺傳病很難被檢測(cè)到。并且檢測(cè)機(jī)構(gòu)出具報(bào)告一般都需要 20 天以上,檢測(cè)項(xiàng)目周期太長(zhǎng)。

華大醫(yī)學(xué)單基因遺傳病檢測(cè)的部分項(xiàng)目。▼

中國(guó)團(tuán)隊(duì)把人類全基因組測(cè)序所需要的時(shí)間,直接壓縮到了 7 分鐘,相當(dāng)于給生物學(xué)界開通了一輛和諧號(hào),得到生物的全部遺傳信息,那都是分分鐘的事。

想知道 7 分鐘的意義有多大,那就先來(lái)搞清楚全基因組測(cè)序是什么吧。

基因測(cè)序就是把 DNA 信息轉(zhuǎn)換成人類可讀取的數(shù)字信息過程,而全基因組測(cè)序,就是把生物的所有 DNA 信息全部轉(zhuǎn)化為數(shù)字信息。

讀取一整條 DNA 鏈的堿基排列信息,不僅速度慢,而且很容易出錯(cuò)。在實(shí)際操作過程中,DNA 長(zhǎng)鏈會(huì)被切割成許許多多的小片段并同時(shí)進(jìn)行測(cè)序,這樣可以大大減少測(cè)序時(shí)間。

雖然小片段序列信息的獲取更快更容易,但是這也帶來(lái)了一個(gè)新難題,如何把這些小片段正確拼接還原成完整序列?

玩過拼圖的人都知道,判斷兩塊零片是不是相鄰位置,需要參考它們的圖案有沒有很好地吻合在一起。

拼接 DNA 片段也一樣,兩條片段是不是相鄰位置,要看它們末端的序列能不能完全重疊。

只要兩條序列首尾兩端分別存在相同的序列,這兩段序列就可以合并成一段。

當(dāng)然了,這是運(yùn)氣好的情況,兩段相鄰片段可以順利找得出來(lái)。如果運(yùn)氣不好的話,在某一處斷點(diǎn)就有可能找不到和它吻合的片段。

為了保證測(cè)序片段能夠覆蓋整個(gè)基因序列,常用的手段只有以量取勝。把十幾倍幾十倍的片段往模版里填,如果還存在填不上空的情況就該去買彩票了。

但是片段數(shù)量的翻倍直接導(dǎo)致的后果就是拼接工作量的指數(shù)增加,畢竟拼 1000 塊拼圖花費(fèi)的時(shí)間可不止是 100 塊拼圖的十倍。

這個(gè)工作量有多大呢?我們放在具體的測(cè)序案例中計(jì)算一下。

以人類全基因組測(cè)序?yàn)槔?,人類?23 對(duì)染色體共 3.2Gb 堿基對(duì)數(shù)據(jù),一般測(cè)序的片段大小會(huì)選擇在 150-350bp 范圍內(nèi),也就是說(shuō),對(duì)人類基因組測(cè)序至少需要處理 10000000 的片段數(shù)量。

而為了提高測(cè)序準(zhǔn)確率和覆蓋度,片段的序列數(shù)據(jù)一般會(huì)遠(yuǎn)超基因組數(shù)據(jù)。比如常用的 30X 測(cè)序深度,測(cè)序得到的總數(shù)據(jù)達(dá)到了基因組數(shù)據(jù)的 30 倍,序列數(shù)量大約增加到了 300000000 段。

粗略估算一下,數(shù)據(jù)讀取 300000000 次才能組裝好一對(duì)小片段,第二次組裝則需要至少再讀取 150000000 次,以此類推。

對(duì)數(shù)據(jù)讀取次數(shù)有了概念,我們?cè)贀Q算一下數(shù)據(jù)的內(nèi)存占用量。據(jù)不準(zhǔn)確計(jì)算,1bp 堿基大概占用 3B 內(nèi)存,那么 30X 測(cè)序深度的人類全基因組大概需要占用接近 300GB 內(nèi)存。

別說(shuō)讀取分析數(shù)據(jù)了,光是存起來(lái)就足夠把計(jì)算機(jī)搞死機(jī)了,所以這樣的任務(wù)一般都交給專業(yè)測(cè)序公司強(qiáng)大的服務(wù)器來(lái)做。而業(yè)界目前的水平,完成人類全基因組的拼接至少需要 24 個(gè)小時(shí)。

這樣一對(duì)比, 7 分鐘能完成 24 小時(shí)的海量數(shù)據(jù)處理工作,確實(shí)強(qiáng)得一批。難道是超級(jí) CPU 出現(xiàn)了?

CPU 還是那些 CPU,不過是有新的數(shù)據(jù)處理方式出現(xiàn)了。

我們把數(shù)據(jù)讀寫看作是往倉(cāng)庫(kù)里運(yùn)包裹,大大小小各種包裹都要往里裝,無(wú)論物件大小全部按順序擺放的方式,不僅搬運(yùn)效率低,空間利用率也不高。

正確的方法是將小包裹收納打包進(jìn)大箱子,再和其他大包裹一起順序擺放,不僅提高了整體的空間利用率,也縮減了搬運(yùn)時(shí)間。

這就是 7 分鐘辦完 24 小時(shí)工作的原因之一,大數(shù)據(jù)直接寫入,小文件聚合成大文件再寫入,不僅存得快,還存得多。

海量數(shù)據(jù)秒處理的另一個(gè)秘訣就是 “ 天下大同 ” 。

通常情況下,不同類型的數(shù)據(jù)互相不認(rèn)識(shí),需要借助單獨(dú)的協(xié)議進(jìn)行私密對(duì)話,調(diào)用上不太方便。

想提高數(shù)據(jù)的調(diào)用效率,那就讓它們都來(lái)廣場(chǎng)上喊話好了,露天場(chǎng)地找人總比在小區(qū)里挨家挨戶找人要快得多。

只要打破不同數(shù)據(jù)間的加解密邏輯,使用統(tǒng)一的數(shù)據(jù)訪問協(xié)議,免去加載過程,就可以實(shí)現(xiàn)對(duì)磁盤內(nèi)所有數(shù)據(jù)的快速調(diào)用。

除了這兩項(xiàng)突破性的數(shù)據(jù)處理方式,一些硬件軟件上的加強(qiáng)也促成了這項(xiàng) 7 分鐘的成就。

比如說(shuō)壓縮磁盤大小,改造服務(wù)器結(jié)構(gòu),用相同體積放置更多數(shù)量的固態(tài)硬盤,實(shí)現(xiàn)更大容量的數(shù)據(jù)存儲(chǔ)功能。

另外該平臺(tái)還開發(fā)出了多線操作的數(shù)據(jù)讀寫模式,能夠把處理數(shù)據(jù)的速度再提升一級(jí);并且還改進(jìn)了數(shù)據(jù)壓縮算法,能夠以更小的磁盤容量處理更多的數(shù)據(jù)。

種種創(chuàng)新技術(shù)的強(qiáng)強(qiáng)聯(lián)合實(shí)現(xiàn)了海量數(shù)據(jù)分析 24 小時(shí)到 7 分鐘的飛躍。連天文數(shù)字規(guī)模的生物信息都能在幾分鐘時(shí)間內(nèi)進(jìn)行處理,還有什么做不到的呢。

這個(gè) 7 分鐘的意義不僅僅是快速獲得全部基因信息,也是數(shù)據(jù)處理領(lǐng)域中十分重要的一項(xiàng)突破。

類似一些需要精密計(jì)算并且數(shù)據(jù)量龐大的應(yīng)用領(lǐng)域,用上中國(guó)自己的服務(wù)器來(lái)處理,又快又安全。

例如衛(wèi)星遙感,藥物研發(fā),能源勘測(cè)等,都需要對(duì)海量數(shù)據(jù)進(jìn)行分析;而自動(dòng)駕駛之類的技術(shù)則要求了數(shù)據(jù)的實(shí)時(shí)反饋,數(shù)據(jù)的高速運(yùn)算處理能力必不可少。

換句話說(shuō),馴服了數(shù)據(jù)就相當(dāng)于把握住了科技命脈,得數(shù)據(jù)者得天下。依附在這個(gè)基礎(chǔ)上的所有領(lǐng)域,都得鉚足了勁再卷一波。

說(shuō)不定,一直以來(lái)磕磕絆絆的 AR 眼鏡,很快就可以普及了。

撰文:興坤 編輯:面線

圖片、參考資料來(lái)源:

https://e.huawei.com/cn/case-studies/storage/2021/west-china-hospital-sichuan-university

http://www.sailegene.com.cn/product.html

原標(biāo)題:《以前要24小時(shí)的基因組測(cè)序,中國(guó)團(tuán)隊(duì)只用了7分鐘?!?/p>

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司