作为数据产品经理,你需要知道这些技术知识
比喻需要固定了解每天使用程序的用户的某些设备信息(手机型号、品牌、网络环境等),就可以放在同一张表,而无需跨表关联影响效率,同时这样的设计有利于性能。但具体如何设计,主要是基于业务的指标体系考虑。 四、数据分析层在大数据分析开发当中,有诸如Spark、Hive、Hbase这些数据库或计算引擎,但这些都基于一套核心的系统,就是Hadoop。要开发一套完整的大数据开发系统,大多数技术都是从Hadoop中获取能力。 4.1 核心框架Hadoop4.1.1 定义 Hadoop是大数据开发所使用的一个核心框架,是一个允许使用简单编程模型跨计算机集群分布式处理大型数据集的系统。很多关于大数据开发的技术模块都基于此基础上,覆盖了数据传输、数据存储管理、数据计算等诸多方面。 4.1.2 作用 使用Hadoop可以方便地管理分布式集群,将海量数据分布式地存储在集群中,并使用分布式并行程序来处理这些数据。 4.1.3 架构 一套完整的Hadoop框架涉及数据传输、存储到计算等环节,并在这些基础上提供种类较多的组件,为快速搭建大数据分析平台提供成熟的基础能力。
4.2 计算类型4.2.1 离线计算 离线计算就是在计算开始前已知所有输入数据,输入数据不会产生变化,且在解决一个问题后就要立即得出结果的前提下进行的计算。时间上按天来算,就是T+1、T+2甚至T+7等,主要看指标的时效性优先级要求。 4.2.2 实时计算 实时计算是相对离线而言,就是指查询条件不固定、目标不明确,但又对数据需求的时效有较大要求,所以需要实时查询进行分析。 优点是自定义条件多,能满足多维分析的数据需求,缺点是考验查询引擎,由于处理数据量大短时间输出结果会有所偏差,且等待时间长。 4.3 计算引擎按照目前行业的发展,关于计算引擎已经发展到了第4代,第1代是MapReduce,而在这里重点介绍5种。
整体来说,不同的业务场景采用不同的计算架构,没有优劣之分,只有合不合适。 五、数据应用层很多时候,大家常接触的都是数据可视化平台,比如常见的BI报表平台、数据大屏等,都是充分使用了数据可视化技术进行呈现。 那么实现这些效果,又用到了哪些技术手段? 5.1 数据平台在介绍可视化技术前,不得不先说数据报表平台,因为这是大多人常接触的,如那些图表、网络图谱、3D城市模型等。抛开单个而言,它是一个平台化的产品。 目前第三方应用较多的就有百度统计、阿里、友盟、神策等。 (样例:报表平台) (样例:可视化屏) 5.2 可视化技术实现数据可视化,除采用前端的基本技术外,还包括相关的图形技术组件 5.2.1 web前端基础技术 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |