25年来,DNA存储领域有哪些重要突破?1克DNA能存储215PB数据是什么概念?

来源:熊卓

大家好,我是清华大学机械工程系的教授熊卓,很高兴在这里分享我的团队对于DNA存储领域的了解和思考。

DNA是我们很熟悉的生物大分子,但“DNA存储”一词对大家仍较为陌生。DNA存储是指通过DNA分子来进行数据存储的技术,借助DNA分子极小的基本单元及其生物特性,实现数据存储。

计算机中通过“0”、“1”排布实现数据存储,DNA中则可通过碱基“A”、“T”、“C”、“G”的排布来实现数据存储。由于DNA单个核苷酸尺寸极小,且分子结构稳定,DNA存储具备极高的信息密度和稳定性。理论上,1克DNA可存储约215PB的数据,能装10000亿本《红楼梦》,且在理想条件下可保存数千年。

DNA存储从实现走向成熟

尽管DNA存储的想法在上世纪60年代就已经出现,但长期以来缺少行之有效的实现方法。随着DNA合成与测序技术的快速进步,在过去25年中研究人员已成功将DNA存储变为现实,并将文本、图像、音频等多种类型的数据存进DNA。

2012年,哈佛大学的研究人员成功将数百KB的数据存储于DNA中,标志着DNA存储从理论走向现实。

2017年,微软和华盛顿大学的团队实现了对超过200MB数据的存储与访问,标志着DNA存储技术向成熟迈出重要一步。

近年来,编码和纠错技术取得显著进展。通过喷泉编码、RS纠错编码等方法,DNA存储的密度逼近理论极限,并且在合成与测序存在错误的情况下仍可恢复数据。

创新的存储方法“百花齐放”

除了传统的DNA序列存储,研究人员探索了基于DNA纳米结构和生物集成的存储方法。

樊春海院士团队(上海交通大学)利用DNA折纸术开发了加密存储方法。他们在DNA平面结构上添加可通过原子力显微镜探针识别的凸起结构,通过特定DNA输入改变结构图像,实现状态切换和加密。这种方法提升了存储安全性和纳米尺度的可编程性。

北京大学钱珑团队与张成团队合作开发的“epi-bit”方法,通过表观遗传修饰(如DNA甲基化)编码数据,避免了传统DNA合成的逐一添加核苷酸过程,实现并行和可编程写入。实验中,60名志愿者通过简单工具包完成数据编码和读取,展现了低成本和易用性。

元英进院士团队(天津大学)利用酵母人工染色体将数据嵌入活体细胞基因组。他们开发了一种DNA可移动存储系统,使用预生成的DNA片段作为“可移动类型”,通过快速组装实现数据写入。这种方法避免了高成本的DNA合成过程,为生物集成存储提供了可持续的解决方案。

东南大学刘宏教授团队通过电化学方法替代传统化学合成,显著提高DNA合成效率。他们将DNA序列存储在电极上,通过读取特定电信号获取信息,简化了读取过程。此外,他们实现了DNA合成与测序的仪器集成,提升了技术便捷性。

我们的团队提出了一种将DNA存储与纳米点阵存储相结合的双模式存储方法,将DNA连接在固相基底上,分别在DNA分子和基底上的纳米点阵中存储相关联的详细数据和概要数据(包括预览数据、索引数据和引物信息),更好地对DNA文件进行了管理,提高了索引效果。

实用化的关键:随机访问技术的突破

DNA存储实用化的关键在于实现数据的随机访问。由于DNA分子通常以混合池形式存储,快速定位目标数据是一大挑战。近年来,研究人员开发了多种方法来实现这一目标,包括特异性PCR扩增和物理检索。

其中,特异性PCR扩增利用特定引物进行特异性PCR扩增,实现对特定数据块的随机访问。物理检索则通过物理分隔方法将不同的DNA分子直接划分至不同的可寻址区域,如热响应性微胶囊、磁珠、微盘片甚至细菌微球中,通过对这些微单元进行索引以读取目标DNA文件。

我们也开发了一种基于“细菌彩珠硬盘”的DNA存储技术,将编码后的DNA信息插入带有荧光表达功能的质粒中,并转化至细菌内。随后,利用微流控技术将细菌封装于水凝胶微球中,实现快速随机访问和室温长期保存。该系统理论最大存储量可达260,700 PB(约254 EB,即2.6亿TB),仅需1.5立方米的空间(接近家用冰箱体积)即可存储该量级的数据。

ELMM特别适用于数据中心的冷存储场景。其室温存储特性可减少90%以上的制冷能耗,而生物自复制能力使数据备份成本趋近于零。实测检索速度达196.72 MB/s,超过磁带库(160 MB/s),可作为低频数据存储层,与SSD/HDD形成分级存储体系。

尽管DNA存储技术在现阶段仍面临成本高、写入速度慢等挑战,但长期来看,其在数据存储方面的潜力不可忽视。未来,DNA存储有望在多个领域展现其独特价值,并通过技术进步和产业化推动实现更广泛的应用。以下是对未来发展的几点畅想:

技术突破与成本降低

随着DNA合成和测序技术的持续进步,预计未来五到十年内,DNA存储的成本将显著下降。例如,新型的酶促DNA合成技术可能取代传统的化学合成方法,大幅降低合成成本和时间。同时,高通量测序技术的进步将提高读取速度和准确性。研究人员还在探索利用非天然核苷酸或化学修饰DNA分子来进一步提高存储密度和稳定性。

标准化与自动化

目前DNA存储的流程高度依赖人工操作,未来标准化和自动化设备的开发将是关键。统一的编码格式、纠错机制和数据访问协议将推动DNA存储的商业化进程。自动化DNA存储设备的出现,例如集成的DNA合成、保存和读取一体机,将使DNA存储像今天的硬盘一样易于使用。

档案保存与文化遗产保护

DNA存储因其超高密度和长期稳定性,非常适合用于档案保存和文化遗产保护。例如,全球重要文献、艺术作品的数字化副本,甚至濒危语言的音频记录,都可以通过DNA存储实现数千年的保存。未来,国际机构如联合国教科文组织可能推动建立全球DNA数据档案库,用于保护人类文明的数字遗产。

DNA存储中心的兴起未来五到十年内,DNA存储中心可能开始投入使用。这些中心将类似于传统数据中心,但规模更小、能耗更低,专门用于存储需要长期保存的数据。它们可能率先在政府档案馆、博物馆或大型科技公司中部署,标志着DNA存储从实验室走向实际应用。

绿色存储与可持续发展

传统数据中心耗能巨大,而DNA存储的能耗极低,符合绿色科技的发展趋势。未来,DNA存储中心可能采用生物基材料和可再生能源进行数据存储与维护,进一步减少碳足迹。结合合成生物学,DNA存储还可能实现数据的“生物循环”,通过微生物降解和再合成实现数据的可持续管理。

生物计算与存储一体化

NA存储的未来不仅限于数据存储,还可能与生物计算结合,形成存储与计算一体化的全新范式。例如,利用DNA分子在细胞内的动态重组特性,开发能够在存储数据的同时进行逻辑运算的系统。

跨领域应用与社会影响

DNA存储的潜在应用远不止档案保存。例如,在医疗领域,DNA存储可用于存储个人基因组数据和健康记录,实现个性化医疗;在航天领域,DNA存储可用于在极端环境下保存任务数据。此外,DNA存储还可能催生全新的加密技术,利用DNA分子的复杂性和生物特性开发极安全的安全存储方案。然而,DNA存储的普及也可能带来伦理和安全挑战,如数据隐私、生物安全等问题,需要制定相应的国际标准甚至法规。

总体来看,DNA存储作为一项前沿技术,正在从梦想逐步走向现实。尽管当前仍面临技术挑战,但其在信息密度、稳定性、低能耗和可持续性方面的独特优势,使其成为未来数据存储的重要方向。

我相信,随着技术的进步和应用的拓展,DNA存储有望重塑我们对数据存储的认知,为人类文明的数字保存和可持续发展提供全新的解决方案。我们期待这一领域在未来十年内迎来更多突破,也希望更多人关注并参与到DNA存储的研究与应用中。

免责声明:

1、本网站所展示的内容均转载自网络其他平台,主要用于个人学习、研究或者信息传播的目的;所提供的信息仅供参考,并不意味着本站赞同其观点或其内容的真实性已得到证实;阅读者务请自行核实信息的真实性,风险自负。

2、如因作品内容、版权和其他问题请与本站管理员联系,我们将在收到通知后的3个工作日内进行处理。