京东云李道兵:对象存储的新挑战
在新的SSD模型上面会不会有新的问题呢?这是一个1U 1PB的SSD存储服务器。这里面带来一个大的问题。每个SSD能提供500MB/s的吞吐,30个SSD提供15GB/s的吞吐,网卡的瓶颈可以用filter来解决,我们从磁盘读取了15GB/s 的数据,但不用向网卡吐那么多数据,只把需要的数据吐出去。但15GB/s远超过CPU的处理能力,即使是顶尖的E5双路CPU也不能满足需求,更何况这样的CPU实在是太贵了。有没有可能我们把计算能力进一步下沉,下沉到SSD里面去呢,SSD为了实现自己的调度算法,自带了计算芯片,我们能不能在芯片里做一些简单的处理,比如过滤、汇总等,这样Filter过程完全不用CPU参与,直接在SSD里就做完了,在新的SSD架构里面这个事情是非常有需求的一件事情。而且,我们也能得到额外的好处,比如半结构化数据可压缩性很强,这套框架也可以用于数据压缩,可以进一步在不影响使用的情况提高存储密度,同时不增加CPU的负担。从这个角度上讲,可以说是两端计算,对半结构化数据,我们拼命把计算往两边迁移,其中一侧我们往下推,推到服务器,再推到磁盘,推到SSD里面自己完成计算。另外一端,我们把汇总出来的数据往另外一侧推,类似spark这类的集中式计算引擎,这种对半结构化数据filter模型就比较方便,能够达到未来半结构化数据计算的需求。对于对象存储你需要做的改变也不太多,需要一套新的支持查询的API,一套查询语法规范(类似于SQL),还有就是对Spark等程序进行改造来支持这个规范。 我觉得对象存储在未来几年的蓬勃发展肯定没有问题,而且其中富媒体作用是主力,但是半结构化数据也会慢慢成长起来,慢慢逐步的可能会成为新的主流的数据存储需求,通过两端计算模型,能够更好的利用半结构化数据和存储的过程优势,把半结构化数据的价值充分发挥出来。我想讲的就是这些,谢谢大家! (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |