【农科先锋】不忘初心 解码基因组奥秘
“A”“G”“C”“T”四种符号却隐藏了生命体无穷的奥秘,“1”“0”两个数字却能编制出计算机无数的指令……沉浸在基因组序列与超级计算机语言之间,不断在“效率”与“质量”中创造新纪录,这就是中国农业科学院深圳农业基因组研究所(下称“基因组所”)研究员阮珏的日常工作。
不忘初心 扎根基因组事业拼搏向前
作为基因组所生物信息学中心农业生物组学基本算法首席科学家,阮珏带领团队在充满未知与挫折的科研之路上下求索,始终坚持领跑,极大提高了二代、三代测序数据的分析效率,从“以年计”迅速降至“以天计”。目前,阮珏承担了国家自然科学基金优秀青年科学基金项目、面上项目、青年基金项目各1项;共发表SCI论文16篇,累计他引14000多次;获得授权专利3项,其中一项入选2016年“第十八届中国专利优秀奖”。阮珏先后被评为深圳市国家级领军人才,通过中国农业科学院“青年英才B类”认定,并获得广东省“五四青年奖”、农业部“杰出青年农业科学家”等奖项。
面对荣誉,阮珏始终不忘初心,坚持埋头科研,“不要急于求成,做到令自己十分满意时,自然会得到大家的认可。”他说,只要敢于拼搏,就可以做到领先。
勇当“拓荒牛” 扎根基因组所潜心算法开发
2004年从南开大学生物系毕业后,阮珏便进入中国科学院北京基因组研究所硕博连读。2009年,博士毕业后的阮珏选择留所工作,每天都与外人看似枯燥的数字与符号打交道,阮珏却甘之如饴,埋头苦干一干就是5年。2013年,当中国科学院统计论文引用时,阮珏所在的团队获得全院最高的殊荣,成绩背后是大家的真心认可。
2014年,中国农业科学院与深圳市在大鹏新区共同打造一所现代创新型研究所,也是全国第一家农业基因组研究机构。筹建中基因组所求贤若渴,向阮珏伸出了橄榄枝。
为什么选择了农业?阮珏认为,从学术发展的角度来看,农业基因组学研究大有可为。
阮珏从事全基因组组装研究,这个领域的发展是从人类物种拓展到其他物种,然而最大空间落在了农业物种和海洋物种。农业物种和海洋物种不仅种类繁多且非常重要,从学术角度分析,往往存在高杂合、高重复以及多倍化等困难,对全基因组组装提出了较其他领域更高的要求。“到一个广阔的天地,到一个可以大有作为的领域。”阮珏认为,这样才能实现个人价值。
从“0”到“1”的艰难,阮珏深有体会,初来乍到没有习以为常的超级计算机、没有丰富完善的图书资料、没有探讨科学问题的同伴、甚至连办公卡位都没有……正如深圳经济特区初建时的“拓荒牛”,阮珏面对艰苦的环境没有退缩,而是坚定信念,沉下心性,潜心研究。
建所初期,阮珏带领了一批年轻科研人员共同加入了“全球3000份水稻核心种质资源重测序计划”项目研究中,主要负责参与研究计算部分(3010份水稻基因组组装及结构变异检测),“纯计算时间就达5个月,占用了1000个CPU核心,仅仅是存储量就达150T。”每天面对着海量的数据,科研人员还要思考如何进行逻辑分析和处理。“2014年研究所刚刚成立,电力系统还不十分稳定,遇到雷暴天气就可能断电,那么就意味着没有保存的数据必须重来。”面对这样的沮丧,阮珏带着科研人员们选择“拍拍桌子”,重头再来。
科研之路曲折且艰辛,阮珏一头扎进算法开发的世界里,不停地与程序漏洞做斗争。在编写完成月初精心设计的构想后,以为即将迎来突破时,结果却往往不尽如人意,此时往往需要重新认识几十条中的那条被认为“最可以被忽略”的规则。“就像你在万米赛道上意气风发,沉着稳定,一马当先,准备领奖时裁判才说你刚刚抢跑了。”阮珏说,在算法开发中经常需要勇于面对这样的挫败。
敢为天下先 肩挑新时代科技强国使命
阮珏是位“80后”,作为新时代的青年科研工作者,他时刻谨记总书记“三个面向”重要指示精神,勇做新时代科技创新的排头兵,担负起建设世界科技强国的使命担当。
全基因组组装,是基因组学研究中最前沿、最基础、最具挑战的领域,既要求“在保证效率的情况下提高质量”,又要求“在保证质量的情况下提高效率”,阮珏始终在这条相联通的“莫比乌斯带”上不懈奔跑。
2008年,第二代测序技术凭借其高通量的优势逐渐取代第一代测序技术,阮珏作为主要算法研发人之一,率先研发出组装算法SOAPdenovo。
在该算法中,阮珏优化了组装图DBG的数据结构空间,包括边的位表示、互补字串的单一存储空间和序列路径的比对恢复方法等,完成了德布鲁因图的多线程构建,并基于第二代测序双向序列进行序列锚定等工作,解决了短序列在大基因组上的组装难题。该方法学论文发表于《Genome Research》(2010)期刊,累计他引1000多次。并以第二发明人申请了专利“一种组装基因组的方法” (ZL200810218338.9),入选2016年“第十八届中国专利优秀奖”。
该方法在农业领域也有广泛的应用,结合之前开发的基因组结构变异检测软件novoBreak,阮珏与团队参与完成了3010份水稻的基因组组装及结构变异检测,项目成果发表在2018年《Nature》(自然)期刊上,科研界对该项目的评价是“由中国科学家主导的,世界范围内的一次大规模、高水平合作”,项目产生的所有数据和测序材料已经通过多个途径对外无条件公开分享。
2014年,第三代测序技术兴起,利用超长测序长序列的优势可以获得高连续性的全基因组组装序列,但其高碱基错误率为组装和计算带来了巨大的挑战。为了解决三代测序组装计算效率极低的问题,阮珏独立开发了SMARTdenovo算法软件,能够在3000 CPU小时内完成人类基因组组装。
探索不能停歇,创新没有止境,基于SMARTdenovo开发中积累的认识和经验,阮珏意识到在第三代测序数据组装中序列比对和组装图不应该分开考虑,序列比对必须围绕组装图构建展开,组装图必须兼顾序列比对。因此,阮珏在SMARTdenovo基础上研发了一种新的长序列比对算法(KBM,Kmer-Bin-Mapping)和组装图结构(FBG,Fuzzy Bruijn Graph),在保证组装结果的连续性和准确性下,极大地提高了第三代数据的组装速度,可以在200 CPU小时内完成人类基因组的PacBio数据组装。该算法(wtdbg2)于2019年发表在《Nature Methods》期刊上,与几个月前美国加利福尼亚大学圣地亚哥分校NIH计算质谱中心发布的Flye相比,wtdbg2将分析速度又提升了5倍,也首次将数据分析时间降低到少于数据产出时间。
雄关漫道真如铁,而今迈步从头越。在深入贯彻落实习近平总书记贺信精神三周年之际,阮珏将以此为新的起点,围绕落实“三个面向”“两个一流”的战略目标,传承弘扬科学家精神,开拓创新、锐意进取,争取在全基因组组装研究领域中取得新的更大成绩。