大数据计算(Big Data Computing) (一)简介
如今,人们以及机器所产生的的数据数量,种类,速度是前所未有的,这使得如何处理这些数据成为了一个问题。传统的计算范式无法在这样的数据规模下正常运行,所以我们需要找到新的
一 简介 如今,人们以及机器所产生的的数据数量,种类,速度是前所未有的,这使得如何处理这些数据成为了一个问题。传统的计算范式无法在这样的数据规模下正常运行,所以我们需要找到新的方法来轻松的存储,管理,分析这些大数据,于是大数据计算这门学科也就应运而生了。 那么什么是大数据呢? “大数据”是一个广泛流行的术语,用来描述专门为收集,储存,处理非常大或非常复杂的数据集而设计的方法和工具。除了我们常见的计算机科学问题(如:搜索,排序等),大数据计算的应用主要集中在:使用先进的数据分析技术从大规模数据中提取知识,比如说机器学习。 对于大数据的现象我们可以用四个"V"来描述: “Volume”:数据的量大(TB甚至是PB级别) “Variety”:数据形式丰富(数据可以使结构化的也可以使非结构化的) “Velocity”:数据产生速度快 “Veracity“”:用于驱动决策过程的数据可靠性 二 单节点架构(Single Node Architecture) 上图是一个节点的结构。如果我们能将数据完整的全部导入主存中,那么我们将不会有任何的问题,但是实际生活中往往很难做到这一点。比如:Google 索引,Goole爬取了500万的网页,平均每个网页有大概100KB(只算HTML),那么总大小为 bytes=5TB。这对于主存来说非常困难,而对于磁盘(disk)来说却很容易做到。但是磁盘与主存间的传输速度却很慢,主存与CPU之间的传输速度最高到25600MB/sec,磁盘到主存的传输速度一般在100到500 MB/sec,大概快两个数量级。要是这5TB数据全部用磁盘,那么我们要全部读取的话需要约14个小时大数据计算引擎,这就要半天时间了,我们甚至还没有对这些数据进行任何计算。 那么我们如何解决这个问题呢? 我们可以想到两种解决方案: 一:纵向扩展:买速度更快的磁盘 优点:操作非常简单 缺点:提升有物理限制,价格昂贵 二:横向扩展:买很多廉价磁盘,让他们并行运行 优点:灵活性高(提升门没有限制,只要加新磁盘就能提升) 缺点:为了让磁盘并行运行,需要额外开销 三 集群架构(Cluster Architecture) 计算的架构基于横向扩展,每个group有16到64个单节点,这个group叫做:rack。每个cluster由许许多多rack组成,通过网络交换机进行节点间的交流 这个架构有三个问题需要被解决: 1 当遇到failure时保证可靠性: 如果说这个cluster里有N个node,每个node平均1000天会坏一次,那么它每天坏掉的概率是0.001,那么这个node每天正常运行的概率为0.999。那么如果我们有1000000个node,那么损坏的节点的个数的期望为1000。即使每个node每天损坏的概率很小,但当节点多起来的时候,node损坏却也成了一个频繁发生的事情 2 减小网络交流的瓶颈 从图中我们可以看到,无论是rack内还是rack间交换信息都是一件昂贵的事情。如果在1Gbps下传输10TB的数据,那么我们传完大概要一天时间。所以我们希望尽可能减少数据的传输。 3 简化分布式编程模型 分布式编程是一件非常复杂的事情,编程人员应该注重与如何解决任务而不是处理复杂的cluster架构 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |