这样解释数据科学,奶奶辈也听得懂!
副标题[/!--empirenews.page--]
数据科学、大数据、数据湖、人工智能、数据挖掘、机器学习、深度学习、商业智能、商业分析……近些年,众多的文章和言论都探讨了上述术语。像往常一样,当某样东西变得流行时,它的概念、定义和限制就会逐渐消失。 ![]() 如果你注册了Linkedin还经常使用的话,你能已经注意到了,光看标题越来越猜不出别人到底在做什么。我们已经厌倦了眼花缭乱的科技词汇和缩略词,也越来越没有费心去了解它们的含义。 ![]() “但是你……你到底是做什么的?” 有趣的时刻来了……
![]() 有一句“名言”(作者被误传为阿尔伯特·爱因斯坦)是这样说的:
1. 数据科学(DS) 简单定义为:数据科学是从数据中提取有用知识的一系列技能和技术。 这些技能通常用德鲁·康威(Drew Conway)创造的维恩图(或它的变体)来表示: ![]() 三个圆圈分别代表三个不同的领域:编程领域(语言知识、语言库、设计模式、体系结构等);数学(代数、微积分等)和统计学领域;数据领域(特定领域的知识:医疗、金融、工业等)。 这些领域共同构成了定义中的技能和技术。它们包括获取数据、数据清理、数据分析、创建假设、算法、机器学习、优化、结果可视化等等。 数据科学汇集了这些领域和技能,支持和改进了从原始数据中提取见解和知识的过程。 ![]() 什么是“有用的知识”?就是可以具有某种价值、可以回答或解决现实世界中问题的知识。 数据科学也可以定义为:研究应用数据处理和分析方面的进展,为我们提供解决方法和答案的领域。 2. 大数据 这个解释起来就简单了:大数据就是大量的数据。 要定义大数据,通常会用3V来解释,这是产生大数据的3个主要原因: ![]()
之后更多V被添加进来:真实性 (数据必须真实、可靠、可用)、价值(数据应有商业或社会价值)、易损性(数据必须合法、尊重隐私,并以安全的方式存储和访问)。 大数据可能是解决这些问题的方案。不要把它和本文解释的第一个概念混淆了:大数据就是实现或促进应用数据科学领域先进技术的事物,是数据的本质要求。例如,作为数据科学家,我们试图从数据集中得到答案。数据集不仅超过了RAM的大小,还超过了硬盘的大小。大数据为我们提供了跨多台机器承载数据的分布式存储技术,以及并行处理数据的分布式处理技术。 3. 数据湖 数据湖是一个集中存储库,用于存储各种数据:结构化数据(我们填入表格的数据)、半结构化数据(数据几乎符合所有格式:CSV,日志,JSON,XML等)和非结构化数据(文档、电子邮件、PDF、图片、视频、音频等)。数据是在公司内部生成的还是在公司外部生成的并不重要。 “集中”意味着一切都将存储在同一个地方,每个人都将访问那儿获取数据。这并不是说所有的数据都在同一个机器里或公司里;分布式存储将成为一种惯例,数据还可以储存在云端。 ![]() 不要忽略一个重要的细节:数据是以原始格式存储的,没有进行任何更改。这意味着未来进行分析时信息都是完整的;数据只有在使用时才会被处理和转换。此外,把鱼煮熟了再放回湖里有什么意义呢? :) 4. 人工智能 机器能思考吗? 1950年,艾伦·图灵(Alan Turing)提出了这个问题,他甚至发明了一个著名的测试,来评估机器给出的答案是否与人类的答案相似。从那以后,对人工智能的幻想就开始了,重点在于模仿人类行为。 ![]() 你做过那个测试吗? 人工智能不是《银翼杀手》中的复制人,也不是《太空堡垒卡拉狄加》中的赛昂人。我们可以把人工智能定义为任何具有某种智能行为的机器或软件。 什么是智能行为? 问得好!这就是有分歧的地方。随着机器不断被开发出新功能,以前被认为是智能的任务也从人工智能环境中剥离了出来。 ![]() 我们可将人工智能定义为能够从其环境中正确解释数据、从中学习,并在不断变化的环境中使用所获得的知识来执行特定任务的机器或软件。 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |