加入收藏 | 设为首页 | 会员中心 | 我要投稿 晋中站长网 (https://www.0354zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

中国科学院院士、上海交通大学化学化工学院院长樊春海:DNA大数据存储,让IT

发布时间:2022-12-13 14:33:08 所属栏目:大数据 来源:未知
导读: 你还记得吗?
1994 年,比尔盖茨坐在 33 万纸上,对全世界发布,我们现在有了 " 光盘 "。一张光盘能够记录的内容,也就 33 万张纸,这在当时来讲应该是非常具有震撼性的广告效应,也就是我

你还记得吗?

1994 年,比尔盖茨坐在 33 万纸上,对全世界发布,我们现在有了 " 光盘 "。一张光盘能够记录的内容,也就 33 万张纸,这在当时来讲应该是非常具有震撼性的广告效应,也就是我们电子存储是具有如此强大的能力。

你发现了吗?

身处在信息爆炸的时代,人类每时每刻都在产生着海量数据信息。为了存储它们,我们现在到处都在建设数据中心。这些数据中心要在靠近山边、水边的地方,占用了大量的土地和能源。

你会相信吗?

未来有一天,我们有可能拿着一管 DNA 说:" 看,我们这里面存储着全世界的所有数据!"

交大安泰 EMBA20 周年之际,每日经济新闻联合上海交通大学安泰经济与管理学院,联合推出 " 我的商学之路 · 我的远见 " 系列策划。

在交大安泰 EMBA20 周年暨安泰视界年度峰会上,中国科学院院士、上海交通大学化学化工学院院长樊春海给我们讲述了一个关于用 DNA 存储海量数据的神奇故事,描绘了一个生物技术与信息技术交融发展的美好未来。

大数据 数据存储_大数据存储_大数据存储公司

数据存储需要一场 " 绿色革命 "

从原始人的结绳记事,到造纸术,再到电子信息时代的数据存储,信息存储方式的变革,从一个角度反映了人类社会的文明发展史。

信息时代来临时,我们曾相信:电子信息来存储,似乎解决了所有存储问题。然而,当我们真正进入一个数据爆炸的时代,我们逐渐发现:仅凭电子信息来存储数据,满足不了我们的需求了。

樊春海院士告诉了我们一组数据:2020 年全世界的数据是 44 个 ZB(440 万亿亿字节)。" 把这些数据存下来,光耗的电就是一个三峡大坝所产生的电。这个数据还在不断增长,到 2025 年预计是 175ZB,而且里面 80%-90% 是很少被调用的冷数据。"

这些所谓冷数据,就是像图书馆的图书一样,我们需要把它存在那儿,不能让它毁灭。可是,日常工作生活中我们又很少去用它,一年可能都用不上一次。存储它们不仅需要耗能、占地,而且由于数据电子存储的寿命只有十年到几十年,时间到了就需要重新更新迭代一次。

所以,在这种情境下,信息存储越来越成为一个重大的国家战略级的需求。不仅存储消耗能源巨大大数据存储,传输也越来越成为一个问题。

"1969 年阿波罗登月计划的时候,当时存储介质是纸,也就是 1 人高这么多的数据," 樊春海院士举例对比:" 到 2019 年,我们可能都知道人类第一次观察到了黑洞,把黑洞的图片传回来,存储这些数据的硬盘加起来有半吨重,没有办法通过网络来传输,只能通过飞机来运输。"

也正因如此,现有基于硅的存储方式,不仅存在高成本、高能耗、寿命短的问题,相对来说迁移起来也很麻烦。现有的数据存储架构,越来越难以满足数据日益爆发性增长的趋势。这时候,迫切需要一场 " 绿色革命 "。

基因测序从理想变为现实

在人类不断生产出海量信息的同时,我们对于生命的理解也更加深刻。在过往几十年里,人类探索生命奥秘最重要突破之一,就是对 DNA 的更深入理解。

"DNA 就是我们生命的密码。我们知道 DNA 由 4 种碱基组成,遵循非常简单的配对规则,我们有时候会称为叫华生 - 克里克配对原则。就是 4 个碱基分成两组,A 一定是跟 T 配对,G 一定是跟 C 配对。"

樊春海院士这样科普到:" 在我们细胞里,每时每刻都有这样一个的过程:DNA 双列进入到聚合酶的蛋白质的孔洞里,就像一个复印机一样,可以说是一个最精确的自然界产生的纳米复印机。当 DNA 复制达到一定量后,细胞开始分裂,一个细胞分成两个细胞,两个细胞分成四个细胞,逐渐变成组织、器官,到植物、动物、人……这就是我们所说的生物学遗传分子机制。"

大家对上世纪末的人类基因组计划耳熟能详。人类基因组计划的目的,是把我们的遗传物质 DNA 序列测定下来。什么叫测定序列?就是把 ATGC4 个字母排列组合给确定下来。

经过几代全世界科学家的努力,这终于变成了一个现实。更重要的是,当时测一个人的基因,要花几十亿美元。而现在对于全世界最强的测序公司来说,只要一天时间,花费一两千块钱的成本,就可以把一个人的基因检测出来。现在,全世界基因测序的市场规模已经达到 100 多亿美元。

不仅如此,我们还可以把古人类、古生物的基因组序列测出来。比如我们通过检测 70 万年前野马化石的基因组信息,了解 70 万年前的野马有哪些生物学特性。

DNA 如何存储数据信息?

虚拟世界、计算世界或者说现在的元宇宙,它的背后是两个数字—— 1 和 0 在跳动。而在我们生物学生命的世界里,实际上背后是 ATGC 这 4 个字母在跳动。人类基因组计划所测出来的一本 " 天书 ",实际上就是 4 个字母的排列。

从这个意义上讲,或者说我们从信息论的角度来看,实际上生命世界跟虚拟世界,可以说是等价的,无非一个是二进制,一个是四进制。也就是说,DNA 分子就是这样一些由 ATGC4 个字母组成的,可以编码的分子信息材料。

既然 DNA 里面的 ATGC 是四进制,计算机里面就是二进制 1 和 0,两者在信息上等价的。那么,是不是可以用 DNA 来存储计算机的信息呢?

樊春海院士介绍到,DNA 存储无非就是把数据 1 和 0 的二进制变成 ATGC 四进制的编码过程。通过一系列的生化反应,把数据给存下来、读出来,再通过数据解码,变成 1 和 0,跟计算机系统对接起来。

"1988 年,有科学家证明 DNA 可以用来存储信息,但是在当时并没有引起很多人的关注,后面有一系列的进展,包括哈佛大学的研究表明 DNA 可以用来存储一本书,在科学界都有一定的影响,但是没有引起社会上的震动。"

樊春海院士谈到,因为在当时,电子存储是足够用的,大家并不需要这样一个听起来很突破性、很怪异的方法来存储。但随着信息爆炸时代的来临,电子存储的瓶颈越来越明显。" 于是,用 DNA 来存储,这件听起来比较怪的事情,实际上已经受到了国内外的普遍重视。"

据樊春海院士介绍,在科学杂志《Science》提到的未来人类的 125 个科学问题中,关于信息科学里面 4 个问题其中之一,就是 DNA 能否用作信息存储的介质。而在我们国家的 " 十四五 " 科技规划,就已经把它列入需要加快布局的几个前沿技术之一。

IT 与 BT 交融的世纪来临

那么,用 DNA 来存储数据,将生物材料用到信息技术里,究竟会带来怎样的变革?

" 推算一下可以知道,通过 50 克 DNA,可以存下 1 千万盘硬盘的信息。可以通过 DNA 存储,把数据存储的容量极限提升 7 个数量级," 樊春海院士列了一组数据:" 这样推算下来,全世界 440 万亿的字节,只要 200 公斤 DNA 就可以存下来,这就解决了大问题。"

也就是说,DNA 存储带来了一种密度高、能耗非常低、寿命非常长的存储模式。寿命能够长到什么程度?" 类似于刚才所说的 70 万年前的野马化石 DNA 信息,不仅可以存百年、万年,甚至有可能存到几十万年、百万年。相对于硅基电子存储只能存几十年来说,有着巨大的进步。" 他说。

"2019 年我们国家信息存储的市值将近 5000 亿元,预计到 2025 年,我们国家将成为全世界最大的数据城。" 在樊春海院士看来,来自医疗、金融、互联网等等各行各业大量的数据,都有可能成为供 DNA 来存储的一些需求。

"DNA 信息存储应该说目前还在起步阶段。" 据他预测,预期到 2024 年,将有 30% 的数字业务有可能是用 DNA 存储来实现,从而解决现在指数级增长的数据存储问题。" 我们上海交通大学成立了 DNA 存储研究中心,希望在这个过程当中,能够发挥独特的作用。"

据樊春海院士介绍,DNA 数据存储是典型的信息技术和生物技术交融的产业,其中不仅包含有信息、大数据和人工智能技术,也包括合成生物学、基因测序等生物学技术。只有技术的交融,才有可能产生这样一个伟大的事情。

" 在上个世纪,我们经常会听到这样的争论—— 21 世纪到底是 IT(信息技术)的世纪还是 BT(生物技术)的世纪?现在的证据越来越多证明,21 世纪可能是生物技术和信息技术交叉融合的世纪。" 樊春海院士说。

每日经济新闻

(编辑:晋中站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!