电商卷皮BI的实践演进和架构体系—猫友会大讲坛第4期
首先介绍一下我们卷皮BI的数据体系,分为四层: 第一层是基础平台层,包括BI所有的数据的接入,加工等等; 第二层是数据服务层,主要给业务部门提供报表和OLAP分析系统、给分析师提供自助取数平台等等; 第三层是智慧运营层,主要是把数据以数据产品的方式渗透到业务部门的日常工作中,例如精细化的运营,针对不同的区域或者人群进行不同的运营策略; ?第四层是决策支持。当然决策支持可以说是在数据服务层和智慧运营层都在做,因为也是以数据支撑每一个具体的业务决策。但是这里讲的第四层的决策更多是以重大决策为主。举个例子:公司选择区域扩张策略,或者仓库选址,还有新业务模式探索等等方向性的决策。 目前我们BI团队处于第三层阶段,正在推进各项智慧运营数据产品的建设。 接下来介绍一下我们卷皮BI的架构体系。我们主要有五大基础平台: 一、数据采集同步平台:负责接入所有的数据源,用户行为的数据是通过埋点直接生产到kafka,数据库之间的抽取用的阿里开源的datax,实时库的同步用也是阿里开源的otter,然后竞品数据是用爬虫平台采集来的。 二、实时计算平台:我们直接上的Spark Streaming,它直接去消费kafka中的数据。虽然Spark Streaming不是真正的流计算,而是高频率的批处理,没有storm的实时性好,但是目前秒级的延迟我们还是接受的,因为Scala语言开发起来更加简洁,而且Spark后续可以支撑更多,例如我们的挖掘就直接用的SparkR。其中还涉及一些内存计算我们用的是memcached和redis,实时数据计算的数据一般直接存储到hbase或者es里面,便于更快的检索。 三、离线计算平台:主要用的hadoop平台,Mysql里面有极少量的存储过程,当前DW全部都在HDFS上,Mysql更多存储的是为报表展示的数据集市类的表。 四、数据服务平台:主要是对外的平台,报表系统,即席查询,OLAP分析系统,数据分析和挖掘等,然后BI也会给公司其他业务研发团队提供各种数据支撑,统一都是走BI自己搭建的数据服务层。 五、运维监控平台:调度系统用的阿里开源的Zeus,然后针对我们自己的需求进行很多二次开发;日志收集分析用的ELK;监控平台负责BI这边所有的硬件软件还有数据质量等等监控;当然这里还要做BI的元数据管理。 ???????这五大技术平台是BI的物质基础,基于这些物质基础,才能继续产出我们的上层建筑:数据产品。 我们BI的产品体系主要有两条线,也就是两只脚走路。 先说一下数据服务线的数据产品,这部分产品主要是支撑公司内所有的数据需求,满足不同层次的人看数据的需要。因为这个也是BI的基础,基本的数据服务你满足,后面业务部门才能配合一起做其他智慧运营的数据产品。智慧运营线主要想将数据渗透到公司业务部门人员工作的每一个环节中,辅助业务部门人员能够更加好的做好运营工作。具体的应用有精准化营销系统、个性化的推荐系统、鹰眼的反欺诈系统和智能选品系统等。 以上就是我们卷皮BI的数据、架构和产品的体系。 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |