DNA存储回顾系列由中科碳元牵头,独家联合再创Regenesis、Genomecraft合作创作,主要由马英新课题组、iSynBio爱星博、iSynBio造物合作推广。
C-ATOM 中科碳元丨DNA存储进展
本文回顾Nick Goldman等科学家在DNA存储的工作,并且指出了DNA存储是芯片数据存储的最有力竞争者之一。总结了目前DNA存储的优势与挑战。首先是长期存储,尽管目前读写还存在可靠性的问题,但相比芯片存储材料,DNA存储保存数据的时间更长更稳定。其次,目前DNA存储属于新兴领域,新方法在迅速发展。尽管存在成本高及合成速度慢等问题,但Goldman等仍认为未来可期。原题:How DNA could store all the world ’s data.
▲Nature 2016 Nick Goldman
01▶前 言
DNA存储始于一句玩笑
对于欧洲生物信息学研究所(EBI)的Nick Goldman来说, DNA中存储始于一个玩笑。
2011年2月16日,Goldman与他同事讨论如何解决大量基因组序列以及全世界喷涌而来的庞大数据时。他们对传统计算技术的所需成本和技术的局限性很失望,以至于他们拿科幻小说开玩笑,说不定要用DNA来存储信息。
说者无意,听者有心。Goldman灵光乍现。DNA存储与硅质存储芯片相比,其写入与读取速度慢的让人煎熬,人工合成特定的长链DNA序列,需要花费几个小时,而使用测序机器读取信息又需要花费更多的时间。
小质量,高密度,长周期
DNA存储,能做到将人类整个基因组保存到肉眼不可见的细胞。并且其存储数据的密度相比较硅质存储芯片大几个数量级,还能够长期存储。2013年,Goldman宣布成功使用DNA编码五个文件,其中包括莎士比亚的十四行诗和马丁·路德·金的《我有一个梦想》演讲的片段。同一时期,哈佛大学的George Church和他的团队也发表了一种DNA编码的实例。EBI文件创造了有史以来最大的DNA文件,大小739KB。2016年7月,微软和华盛顿大学宣布能够编码200MB文件,该纪录被打破。
一公斤DNA装下整个世界的数据
目前,整个世界正面临着数据爆发的挑战。预计到2020年,从天文图像、期刊文章到YouTube视频,全球数据存储将达到44兆GB,比2013年增长10倍。预计到2040年,这些数据存储将消耗10-100倍于目前的硅质存储芯片。计算神经科学家David Markowitz认为,传统的数据存储需要许多的设备与能量的要求,而分子数据存储可能将这些要求降低多达三个数量级。假如信息像大肠杆菌的基因密集地包装起来,那么大约一公斤的DNA就能满足全世界数据的存储需要。
▲不同存储方法的限制
DNA存储要实现稳定大数据存储和随时读写不是易事,这需要DNA存储能够做到快速、廉价得到特定的核苷酸序列,克服这些挑战还需要巨大的努力。半导体研究委员会(SRC)的Victor Zhirnov认为,DNA存储是芯片数据存储的最有力竞争者之一。
02▶蓬勃发展的新领域——DNA存储
1988年,哈佛大学的Joe Davis宣布首先将1和0映射到DNA的四个碱基对上,将序列插入到大肠杆菌中,其中1对应暗像素,0对应于亮像素,由它们形成了一个代表生命和繁育女神的图案。
▲Joe Davis利用DNA序列编码的图案
2011年开始, Davis与Church的实验室合作探索DNA数据储存。该团队希望该应用能降低DNA的合成成本,如基因组学降低核酸测序成本。
2011年11月,Church在与加州大学洛杉矶分校的Sri Kosuri以及约翰斯·霍普金斯大学的Yuan Gao合作,使用许多短链DNA对Church编写的一本书进行编码,大小有659KB。每个短链DNA片段的一部分用来进行排序后的片段组装顺序,其余部分则编码数据。该方法有助于设计出能够避免出现阅读问题的序列,该方法没有做严谨纠错,而是依靠每个DNA链通过多拷贝,提供冗余副本。对结果进行测序后,只发现了22个错误。
与此同时,Goldman、Birney和他们的同事也使用DNA链编码包括图像、ASCII文本、音频文件以及Watson和Crick关于DNA双螺旋结构的论文,一方面将数据编码为不是二进制的1和0,而是以3个数为基础,即0、1和2。另一方面他们不断轮换代表每个数字的DNA碱基,通过使用序列重叠,100个碱基长度的DNA链持续位移25个碱基,从而确保每25个碱基的片段有四个版本,供检查和比较。
▲Goldman与Birney的DNA编码存储方法
Goldman坚信,DNA有潜力作为一种廉价的、长期的数据存储库,只需要很少的能量。在2013年,哥本哈根大学、华大基因等多单位联合成功破译了约70万年前史前马的全基因组序列图谱。Goldman信心满满认为,如果你想要有长期安全的文件副本,可以将信息写入DNA中,然后放入山洞置之不理,直到想要读取信息再打开它。
2013年4月,华盛顿大学的Luis Ceze和微软的Karin Strauss提出了DNA存储新方法,首先从DNA档案中提取小样本。然后,利用PCR来检索并制作更多的DNA链副本,拷贝增加使得测序比以前的方法更快更准更便宜。同时还设计了替代纠错方案,他们使用类似 EBI 的方法与自己的方法进行比较,得到了更好的结果,其编码数据密度是EBI的两倍。
2015年6月,伊利诺伊大学厄巴纳-香槟分校的Olgica Milenkovic 和她的同事开发了一种随机访问方法,通过将数据存储为两端都有地址标签序列的长链 DNA。然后使用 PCR 或基因编辑技术 CRISPR-Cas9技术来选择、放大和重写的DNA链,防止它们在出现错误时混淆,同时避免分子折叠之类的问题。
03▶经济成本VS合成技术
DNA 存储的短板--合成分子的规模与速度
Kosuri认为,DNA 存储的挑战一个是合成分子的规模和速度问题。如果真正改变世界范围内的数据存储问题,这需要至少要以拍字节为单位存储信息。目前DNA合成方法比较“古老”,添加一个碱基需要约400秒,如果继续使用这种合成方式,就必须一次制作数十亿条不同的DNA链。但是目前同步生产只能达到几万条DNA链。
另一个是合成 DNA的成本问题。在EBI的DNA存储实验中,合成DNA的支出占总支出的98%。自 2003 年人类基因组计划完成以来,由于测序成本降低了200万倍,测序仅占总支出的2%。
2016年6月,Church和其他科学家提出人类基因组编写计划(HGP-write),该项目可能使DNA合成成本降低。但Kosuri认为,人类基因组仅0.75 GB,在DNA 数据存储的挑战面前相形见绌。
2016年4月,微软的Strauss和她的同事,实现了0.2GB数据的DNA链随机接入存储。她们通过训练处理更大数量的DNA,从而推动它形成更大规模,同时找出并努力解决这个过程中的瓶颈。
Goldman也坚信,这些挑战难不倒他们,他表示需要10万倍的提升才能使这项技术可行,过去的表现并不能代表未来,每隔一两年有新的技术投入使用,在基因组学面前,六个数量级提升小菜一碟,DNA存储未来可期!
DNA存储发展至今,其长时间和大容量存储特点突出,只要1kg左右的DNA就能够存储全世界的数据。但是,在随时读写、读写纠错、成本控制和合成技术方面还是存在许多的挑战,这些挑战需要科研人员的共同努力,从而一起走向DNA存储的光明未来。
参考文献
[1] Extance, A. How DNA could store all the world’s data. Nature 537, 22–24 (2016).https://doi.org/10.1038/537022a
[2] DAVIS J. Microvenus[J]. Art Journal, 1996, 55(1): 70–74.doi: 10.1080/000432
[3] Goldman N, Bertone P, Chen S, Dessimoz C, LeProust EM, Sipos B, Birney E. Towards practical, high-capacity, low-maintenance information storage in synthesized DNA. Nature. 2013 Feb 7;494(7435):77-80. doi: 10.1038/nature11875.
转载自中科碳元
--------
文案:林家伦
审核:疯与鸽
排版:巳月
指导:神秘 Prof. Dai