【PPT+实录】搜狗资深工程师申贤强:大数据处理和统一任务调度系
先讲讲搜狗数据分析的架构,数据分析流程以及现在数据分析师在做数据分析的时候所面临的问题,以及对任务管理和定时运行的各种需求,引出第二个系统,统一调度系统,对于统一调度系统我们讲他的前世今生,以及现在的框架图。 搜狗数据分析平台架构图。 原始日志及数据传输、存储、数据工具分析还有任务管理层和前端页面展示层。传输层有实时和离线两个部分,对于离线数据传输我们走的DTE,这种数据直接存储于HDFS,在线层,实时直接入数据仓库。 对于数据仓库层,我们对于原始仓库通过数据筛选清洗,相当于ETL流程,生成精简的custom数据仓库,数据就位之后,数据工具层,常规工具在搜狗,Hive,pig,有HbaseNoSql,类Sql Phoenix和Spark Sql,搜狗也支持即席查询,即分布式SQL,有presto和impala。 当数据分析测试上线之后我们需要的是什么?定时任务管理系统,支持依赖支持定时,将数据结果展现给搜狗网页的产品,实时流量系统、报表以及Search Tool和奥特曼业务。 ??? 数据分析的流程。 基本上分为这几个部分,采集,数据仓库、计算、数据库、入库,前端页面。将上面的过程进行细化,业务方产生数据,数据要存入存储平台,数据分析书写数据,将结果反馈。 ??? 数据分析师面临的问题,与前端以及与产品的各种沟通。与测试经理沟通排期,数据分析师要做的事情有可能关心这个数据是不是已经就位,数据仓库的制作是不是已经完成,数据是不是有重复,结果是不是会造成结果不正确,仍然需要关心是什么? 这个任务需要部署提交环境,产品最终上线数据分析师面临的一个问题: 第一,这个数据不准确; 第二,性能有问题,查询缓慢; 第三,没有出来结果,原因提交机挂了,有可能数据分析师面临的问题,所以数据分析师本身比较苦闷的。 ??? 所以整体说,数据分析整体设计的流程和过程是比较复杂的,无法要求数据分析师一个人全部覆盖所有的事情,需要平台提供一些工具或系统将数据分析师的工作简化,让数据分析师专心写流程,下面我们要介绍如何去提供一些工具,和我们的任务管理系统。 ??? 我们做工具和系统的目标简化流程,降低人力开发与运维成本,提高开发效率提高资源利用率。 ??? 如果做到这一点,首先看,数据分析师在写SQL查询之前需要做的准备工作有哪些?原始日志导入,Hive生成default数据仓库需要做数据清洗,即ETL流程。首先看原始日志的导入。 ??? 在搜狗早期的框架,大概的结构是这样,由于历史原因,存储和计算集群是分离,我们需要进行一次数据传输,这种数据传输会造成它的不好的地方,一,不是实时入Hive,这是离线传输系统。第二,数据的格式是线上服务器固定的格式,所以它的采集频率以及它的格式是固定,对我们使用会造成一定的影响。 它的缺点: ???
??? (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |