云上运行 Hadoop 会面临哪些难题

发布时间：2021-06-27 05:51:23 所属栏目：大数据来源：互联网

导读：在云上运行Hadoop，很多人担心性能。因为一提到虚拟化就会有人想到有成本，往往得出有偏见的结论-在云上运行肯定比物理机器上运行性能差。确实，在云上运行Hadoo

在云上运行Hadoop，很多人担心性能。因为一提到虚拟化就会有人想到有成本，往往得出有偏见的结论-在云上运行肯定比物理机器上运行性能差。确实，在云上运行Hadoop对平台方还是面临一些挑战的，下面主要讲述这些挑战及平台方怎么解决的。

前言

在云上运行Hadoop，很多人担心性能。因为一提到虚拟化就会有人想到有成本，往往得出有偏见的结论-在云上运行肯定比物理机器上运行性能差。如果单独把10台物理机虚拟化跑Hadoop，这肯定是有部分性能的开销的。但是如果在公共云上，情况就不是这样了。因为公共云虚拟化的开销最终是由平台方来承担的，其一是平台方采购机器有规模优势，其二平台方可以在保证虚拟机性能的情况超卖部分资源。

平台卖给用户8core32g的虚拟机就保证有这个规格的能力的。结合云上的弹性优势，企业的总体成本是会下降的。

在云上运行Hadoop对平台方还是面临一些挑战的，下面主要讲述这些挑战及平台方怎么解决的。云上Hadoop的挑战-Shuffle

Shuffle分为Push模式，Pull模式。Push模式就是直接通过网络发送到下一个节点，比如：storm、flink。Pull模式就是数据先存储在本地，再启动下一个节点拉取数据，比如：Hadoop MR、Spark。

在push模式下，主要瓶颈点是网络。在一般的云环境中，网络跟线下没有太多的区别，可以满足需求。

在pull模式下，主要瓶颈点是磁盘。在云环境中，会提供本地磁盘或者用SDD加速的方案。如下：另外：

根据spark社区的报告，在机器学习等很多场景下，瓶颈点现在是CPU了

云上Hadoop的挑战-数据本地化

数据本地化含义是分析时，把计算移动到数据节点的。如果计算存储分离，则存在数据放在OSS中，需要从OSS远程拉取数据。一般情况下，认为这样会有性能问题。

（编辑：晋中站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

安徽合肥人工智能产业	为了不emo，我将自己培
AI芯片公司拿下超级石	Vitalik 协议设计中的