12月9日,中國(guó)農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所阮玨團(tuán)隊(duì)在《自然·方法學(xué)(Nature Methods)》上發(fā)表第三代測(cè)序數(shù)據(jù)組裝算法wtdbg,該算法極大提高三代測(cè)序數(shù)據(jù)的分析效率,與2019年4月1日發(fā)表在《自然·生物技術(shù)(Nature Biotechnology)》上的Flye算法相比,分析速度提升了5倍,并首次將測(cè)序數(shù)據(jù)分析時(shí)間降低到少于測(cè)序數(shù)據(jù)產(chǎn)出時(shí)間。
基因組學(xué)技術(shù)飛速進(jìn)步既源于測(cè)序技術(shù)的發(fā)展,同時(shí)也依賴于數(shù)據(jù)分析技術(shù)的提高。如今完成一個(gè)人的全基因組測(cè)序已經(jīng)是件普通實(shí)驗(yàn)室甚至家庭都可以負(fù)擔(dān)起費(fèi)用的“平常”事情,以三代測(cè)序?yàn)槔?,完成個(gè)人全基因組測(cè)序僅需1天時(shí)間、費(fèi)用低于5萬元。但是完成這樣數(shù)據(jù)規(guī)模的全基因組組裝分析,在2014年需要消耗50萬個(gè)CPU小時(shí),只能在超大計(jì)算機(jī)集群上進(jìn)行。這種情況下,同時(shí)對(duì)大量個(gè)體進(jìn)行組裝分析是難以想象的,然而以全基因組組裝方式對(duì)群體進(jìn)行測(cè)序分析已經(jīng)成為生物和醫(yī)學(xué)研究的趨勢(shì)。
近年來,生物信息學(xué)領(lǐng)域的科學(xué)家們致力于改變這種數(shù)據(jù)產(chǎn)出速度遠(yuǎn)高于數(shù)據(jù)分析速度的尷尬狀況,不斷開發(fā)出更高效的組裝分析算法?;蚪M所在成立之初就布局組學(xué)技術(shù)研究,致力于將前沿測(cè)序技術(shù)引入農(nóng)業(yè)科學(xué)研究中,阮玨團(tuán)隊(duì)多年來始終專注于測(cè)序數(shù)據(jù)分析方法,如組裝算法的開發(fā),力求推動(dòng)測(cè)序數(shù)據(jù)的分析速度更快、分析質(zhì)量更高。
Wtdbg算法的開發(fā)得益于一個(gè)新的組裝圖理論(模糊布魯因圖)的提出。模糊布魯因圖借鑒了德布魯因圖的思想,將測(cè)序數(shù)據(jù)切分為固定長(zhǎng)度的短串,再?gòu)亩檀畼?gòu)建出的圖上恢復(fù)出全基因組序列。德布魯因圖以速度優(yōu)勢(shì)常用于第二代測(cè)序數(shù)據(jù)的組裝分析,但因測(cè)序噪音極高的難題,從未成功應(yīng)用在第三代測(cè)序數(shù)據(jù)。模糊布魯因圖重新對(duì)短串進(jìn)行定義,使之能夠容忍高噪音數(shù)據(jù),并隨后對(duì)生成組裝圖和恢復(fù)基因組序列做了大量相應(yīng)的重構(gòu),使其兼具高效率和高容錯(cuò)的優(yōu)點(diǎn)。
該項(xiàng)研究始于2013年,由基因組所阮玨研究員與美國(guó)哈佛大學(xué)醫(yī)學(xué)院的李恒博士合作完成。研究成果自2016年起對(duì)所有人免費(fèi)開放使用,不僅被幾十篇學(xué)術(shù)論文引用,還被國(guó)內(nèi)多家基因測(cè)序分析公司作為主要組裝分析工具,并且在2019年世界大學(xué)生超算競(jìng)賽中作為性能測(cè)試賽題。(通訊員 趙華)
原文鏈接:https://www.nature.com/articles/s41592-019-0669-3