DN存储新图谱:DNA存储的边界与天地

数字信息时代,无论是生产数据的各大视频网站、应用平台等,还是消费者们使用的各类电子设备,都无不在时时刻刻产生数据。
拿自动驾驶举例来说,平均每辆自动驾驶车每天产生的数据量高达10TB。根据IDC机构的预测,2020年到2025年间,全球生成的数据(包括新数据和副本数据)量预计复合年增长率为23%,到2025年达到180ZB,每天几乎产生490EB的数据。
数据也成为继土地、劳动力、资本、技术之后的第五种生产要素,所有基于数据的挖掘和增值都离不开存储。存储成为数据应用的基础,其存储方式也随着数据量的激增与需求不断发生变化。在信息与技术的不断发展演进中,存储开始面临不少的挑战。
DN存储新图谱:DNA存储的边界与天地
文章插图

存储设备、介质(磁性材料和半导体材料)随时间的老化与更新不及时,存储维护成本高,存储密度的局限以及能源功耗大等。这些现实的困境驱动业界开始寻找更好的替代方案,满足不断增高的性能、低功耗、稳定性等需求。
DNA存储成为基础的新存储技术被作为优先的研究方向,以解决数据存储中存在的负荷与问题。我们经常会在新闻中看到,考古学家通过什么DNA测定,了解到几百年、几千年的信息。据悉,在合适的条件下,DNA可以持续存在数十万年,甚至几百万年。
不考虑DNA的其他存储特性,仅仅凭借着恒久的保存时间,我们的数据也有可能成为和“化石”一样的存在,这个特性就十分值得我们长久地下功夫去研究与投资。当然,DNA存储的优势不止如此。
存储效率的千倍提升
DNA存储简单来说,原理就是将DNA分子中的碱基序列与存储信息编码一一对应,将文字、图片、声音等信息转化为DNA序列进行存储。这是一门需要多学科交叉的高精尖技术,涉及生物、计算机、化学等学科。
在生物分子中储存信息,非常复杂。科学家们将目光与精力投入到DNA存储的领域,最根本的原因是看重其极高的存储密度特性。据悉,1克DNA即可储存215PB的信息,而硬盘的存储量不过几TB。要知道,1PB=1024TB=1024X1024GB,按照高清电影每部10GB算,1克DNA能够存储2.2亿部电影。与此同时DNA存储的维护成本也相较数据中心低很多。在能耗方面,1GB的数据硬盘存储能耗约为0.04W,而DNA存储的能耗则远远小于硬盘存储能耗,可忽略不计。
DN存储新图谱:DNA存储的边界与天地
文章插图

在数据量日渐激增的信息时代,高存储密度,低成本维护与低能耗储存信息的方式,使得科研机构与资本都将精力与金钱押码在这个可能成为未来主流存储方式。不过虽然有资金与科研的投入,但其进展仍较为缓慢。我们能在公开渠道中看到的成果都是实验室的最佳成绩。例如2012年,哈佛大学研究人员用DNA储存了一本五万字的图书。欧洲生物信息研究所在DNA储存了莎士比亚的十四行诗以及马丁·路德·金的演讲《我有一个梦想》的录音带。
从上世纪50年代提出,DNA的数据存储研究的进展一直缓慢,没有什么较为重大的变化。不过在近两年,DNA存储的技术开始有了一些新的进展。近日微软研究院对外宣称,研究出新的分子控制器,使得DNA的存储写入的速度相较以往提高了1000倍。微软研究院作为DNA数据存储的早期入局者,2015年开始进行相关研究,直到2019年才有研发进展,到如今速率千倍的升级,还是着实下了一番功夫。
与此同时,国内的东南大学生物科学与医学工程的刘宏团队也实现了DNA存储的新突破:立足自主开发实现了DNA合成与测序环节的一体化,仪器设备也实现了小型化。DNA存储在国外的技术路线大都是存储的合成与测序环节分开进行,需要大型的仪器设备,操作也相对复杂一些。刘宏团队将仪器设备等朝着便携式改进了许多。