加入收藏 | 设为首页 | 会员中心 | 我要投稿 晋中站长网 (https://www.0354zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

读书 | 《数据思维》,理解大数据的价值

发布时间:2022-12-17 15:04:12 所属栏目:大数据 来源:转载
导读: 写在前面
这是去年冬天上大数据课的时候,老师推荐的书。
豆瓣评分只有 6.5,看了下评论,评分低主要因为讲的太基础。
然而,这却恰是一本好的入门书,比较基础的理论知识+大量的案例讲解,

写在前面

这是去年冬天上大数据课的时候,老师推荐的书。

豆瓣评分只有 6.5,看了下评论,评分低主要因为讲的太基础。

然而,这却恰是一本好的入门书,比较基础的理论知识+大量的案例讲解,帮助新手了解大数据及其价值。

大数据思考_大数据的思考_大数据 思考 12306

豆瓣评分:6.5

第一步:朴素的数据价值观

在理解大数据之前,让我们先了解下基本的概念。

What - 什么是数据

什么是数据?

凡是可以电子化记录的,其实都是数据。

划重点:可被记录、电子化记录,都是。

电子技术的发展,使得数据类型更丰富,数据量也更大。除了传统意义上认为的股票、GDP、身高等数字信息,图像和声音等也是数据,并被应用到人脸识别、指纹识别、美图秀秀、语音输入等等方面。

Why - 为什么数据对商业有价值

机械思维带来工业革命,彼时,世界的确定性和因果关系较强(想象一下手动挡汽车的刹车、挂挡、油门之间的关系)。

然而,伴随科技的发展,世界变得复杂,不确定性增强(想象一下自动驾驶技术)。

研究数据信息及其之间的相关性,可以帮助我们消除不确定性。

数据 VS 商业

让数据产生价值。

具体点:是在真实的产业环境中,让数据产生可被产品化的商业价值。

在商业价值上,有三个关键词:收入、支出、风险。

任何数据产品,如果可以帮助客户,在这三个方面中的任何一个方面实现可量化的改进,那么这个数据就产生了明确的商业价值。

比如,通过数据分析,发现提高停车场收入或降低人工/物料等成本的方法,或预测风险并提前规避进而提高收入减少成本。

How - 如何把数据转化为价值

既然是可量化的改进,那就有一个重要的因素:可量化的参照系,帮助我们判断什么叫好,什么叫不好。

这里有一个思想方法/模型:

大数据模型:回归分析

把一个业务问题,定义成一个数据可分析问题的方法。

具体而言,就是 X 和 Y。

Y:因变量,即因为别人的改变而改变的变量。在实际应用中,Y 刻画的是业务的核心诉求。比如,房价。

X:解释性变量,用来解释Y的相关变量,可以是一个,也可以是很多个。比如,房子楼层、位置、房龄等影响房价的因素。

回归分析的任务就是,通过研究 X 和 Y 的相关关系,尝试去解释 Y 的形成机制,进而达到通过 X 去预测 Y 的目的。

即:

就回归分析本身而言,有五种类型:线性回归、0-1回归、定序回归、计数回归, 以及生存回归,称为“回归五式”,这里就不展开讲了,大家自行翻书去吧。

展示数据:数据可视化

最基础就是统计图,要能够准确、有效、简洁、美观的呈现数据。

准确和有效,是最基本的要求:(1)要用准确的统计图,去描述不同类型的数据大数据思考,比如,该用折线图的时候不要用饼图(2)要让统计图更加有效地展示你的数据,支撑你的观点,为我所用。

完整统计图包含的要素:

要有图标题,简洁明了报告中的统计图要有标号,横纵轴、单位要标注清楚图的标题、横轴、纵轴等,出现的文字要统一和准确图的比例要协调,太胖太瘦太高太矮都不合适图的内容要正确、简明,避免出现不必要的标签、背景等注意配色画完图要有适当的评述

本书介绍了柱状图、堆积柱状图、饼图、直方图、折线图、散点图、箱线图、茎叶图等常见的可视化方式,用辅以案例进行解读和优化,值得参考。

进阶:机器学习、非结构化数据

前面讲的,基本上都是线性模型。

然而,在实际场景中,有大量信息是非线性的。

这里就需要用到另一类重要的数据分析手段:

机器学习

大量采用非线性手段,因此,对于数据常常具有更好的拟合优度。

机器学习的模型输出,直接的可解读性都不够好,但却更利于人们知道数据背后的故事(比如,输出一张数据分布图,供企业进行进一步的分析和解读)。

机器学习主要涉及的方法有:朴素贝叶斯、决策树 、神经网络、K 均值聚类(每个方法在书中都有案例做详细解释,感兴趣的同学直接去翻书吧)。

除了线性 vs 非线性,还有一个点:

数据的结构化 vs 非结构化

结构化的数据相对容易分析,那么非结构化的数据,比如中文文本、图像等,该如何进行分析呢?

作者介绍了一些具体的案例,比如通过社交网络大数据分析人物关系,通过用户评价分析产品优劣势等等,很有趣。

我的一些感想

大家应该也常常看到这个观点吧:大数据、云计算等技术的发展,为软件行业乃至所有行业的发展带来了新的契机,也将大大改变人类的生活和商业运营的模式。

之前我其实并不是完全懂,现在我感觉我懂了一些,这里面的逻辑如下:

以往的商业模式中,人比较容易找到影响企业运营和发展的因素,并进行计算和分析然而,信息越来越多越来越杂,人能够获得的信息并不是最全的即使获得了全部的信息,人的能力也计算不了那么多,也算不了那么精准。此时,人犹如井底之蛙因此,要用大数据的分析模型,引入机器计算和学习:机器能够存储的信息更多,计算能力也更强,更容易发现各个因素之间的关系,更重要的是能进行自我学习和算法上的迭代但是,很多企业并不具备大数据相关的软硬件能力,云计算/云平台以及相关的工具厂商,为广大企业提供了这样的技术基础,使得每个商业体都能够具备这种能力剩下的,就随你怎么玩了:基于大数据,小一点的玩法是搞内容推荐、搜索联想服务,大一点的玩法是搞人工智能、无人驾驶、物联网.,总之,想象空间很大

就如同《未来简史》里所讲的宏观视角:在宏观视角上,有三个重要趋势。

科学正逐渐聚合于一个无所不包的教条,也就是认为所有生物都是算法,而生命则是进行数据处理智能正与意识脱钩无意识但具备高度智能的算法,可能很快就会比我们更了解我们自己

Interesting。

(编辑:晋中站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!