基于某生鲜APP业务的数据仓库搭建过程(一)
大客户分析:
购物车分析:
售后分析:
供应链分析:
微仓分析:
2.3 抽取公共维度,构建数据集市 确定细分的分析主题后,需要对上述所有的主题进行切片,抽取公共维度。公共维度的抽取非常重要,如果没有维度的切片,那么所有分析数据只能从业务源数据中抽取,这样会极大降低数据的处理速度,甚至会导致计算系统的崩溃。这一步也为接下来的数据建模提供基础。 以用户分析为例,与用户有关的维度有下单时间、下单日期、所在地区、购买的产品、用户订单、支付方式、折扣方式、年龄、购买频率、售后等等。 以此类推,逐个分析每一个主题,然后抽取公共维度,构建总线矩阵表,如下所示: 2.4 根据常用建模方法,设计维度表和事实表 一般来说,数据仓库由维度表和事实表2种表组成,保存度量值的详细值或事实的表称为“事实表”;用来描述事物维度和属性的表称为维度表。一般来说,一个事实数据表都要和一个或多个维度表相关联。 在这一步骤中,我们需要把OLTP模型中的数据转化为关系模型。建模方法常用的有星形模型、雪花模型。 以下订单事实表为例,基于星型模型将OLTP中的数据转化为关系模型,定义层次结构,在这一步基本完成物理数据库的设计。 如下图所示: 3. 配置数据源OLTP中的数据类型非常多,来源也很多。既有结构化数据,也有半结构化、非结构化数据;既有mysql、oracle等关系型数据数据,也有日志文件、ngix服务器、埋点数据,甚至还有DOC文件数据。 在这一步就需要梳理所有数据来源,包括来源总数、数据类型、存储方式、数据量级、更新频度、增量量级等等。 另外需要注意到,结构化数据可以直接通过ETL方式进行提取;结构化和半结构化数据则需要通过一定的算法处理后再入库。 未完待续……
本文素材来自互联网 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |