基于HBase和Spark构建企业级数据处理平台
发布时间:2019-11-09 07:18:05 所属栏目:教程 来源:大数据与机器学习
导读:面临的场景 金融风控 用户画像库 爬虫抓取信息 反欺诈系统 订单数据 个性化推荐 用户行为分析 用户画像 推荐引擎 海量实时数据处理 社交Feeds 海量帖子、文章 聊天、评论 海量实时数据处理 时空时序 监控数据 轨迹、设备数据 地理信息 区域分布统计 区域查
面临的场景金融风控
个性化推荐
社交Feeds
时空时序
大数据
新的挑战Apache HBase(在线查询) 的特点有:
面临的新的挑战:
选择Spark的原因![]()
平台机构及案例一站式数据处理平台架构 ![]()
典型业务场景:爬虫+搜索引擎 ![]()
典型业务场景:大数据风控系统 ![]()
典型业务场景:构建数据仓库(推荐、风控)
原理及实践 Spark API的发展经历了RDD、DataFrame、DataSet ![]() Spark Streaming采用的是Micro-Batch方式处理实时数据。 ![]() 作业堆积、延迟高、并发不够?
Spark流式处理入库HBase ![]() Micro-Batch Processing:100ms延迟ConKnuous Processing:1ms延迟 Spark HBase Connector的一些优化 ![]() 代码托管在:https://github.com/aliyun/aliyun-apsaradb-hbase-demo (包含Spark操作Hbase和Phoenix) 本文整理自来自阿里巴巴的沐远的分享,由大数据技术与架构进行整理和分享。场景需求和挑战
(编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |