加入收藏 | 设为首页 | 会员中心 | 我要投稿 晋中站长网 (https://www.0354zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

中科院陈曙东:大数据的哲学思考

发布时间:2022-10-26 16:00:19 所属栏目:大数据 来源:转载
导读:
万物互联时代,从互联网到物联网包括工业4.0,产生了大量的人机互联、机器与机器的互联。那么,其中的哲学内涵和实质是什么?在“互联网+”这个新的互联网时代下,工业4.0、大数据、互联网

万物互联时代,从互联网到物联网包括工业4.0,产生了大量的人机互联、机器与机器的互联。那么,其中的哲学内涵和实质是什么?在“互联网+”这个新的互联网时代下,工业4.0、大数据、互联网、互联网+等,它们的内涵是什么?

在前不久的“亚信大数据开放日”上,来自中国物联网研究发展中心(筹)、中国科学院物联网研究发展中心、江苏物联网研究发展中心物联网系统架构与数据交易技术研究中心的陈曙东博士、研究员兼博士生导师,介绍了对大数据的哲学思考。陈曙东是中国科学院微电子研究所的百人计划研究员,研究方向为大数据、云计算在物联网和相关应用领域的应用。

大数据的出现是自然现象

网络的大数据化是种自然现象,在这方面中国工程院的邬贺铨院士有一个论述。数据来源分为三个方面:第一是网络层数据,包括自媒体、社交网络、博客、微博等;第二是社会层面的数据,包括政府、企事业、平面媒休等数据;第三个就是物联网传感器的数据,这些构成了网络的大数据化。其中,物联网技术在推进着大数据相关技术的发展。借助条形码、二维码、RFID等能唯一标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可以实现实时的信息采集与分析,这些数据能够支撑智慧城市、智慧交通、智能电网、智慧医疗等需要,是大数据的采集数据来源及服务范围。

陈曙东介绍了智能交通、智能农业和智能工业的大数据现象。中国物联网研究发展中心参与部署了江苏省道路监控系统320工程,平均每个市每天上传的数据有120多万条,累计到2014年6月份的时候全省已经汇聚了110多亿条数据。而我国农业数据的总量已经达到了PB级,逐年以TB级增加,农业基础数据资源库包括了农资数据库、农作物生产数据库、农作物遥感数据库、农村人口管理数据库等。在智能工业方面,随着制造活动的空间覆盖面从企业内扩展到企业间再到全球范围,在产品全生命周期中产生的各类数据、信息、资源等已经达到PB级。

陈曙东认为,大数据的出现是一种自然现象,这个自然现象是信息技术和应用发展到一定阶段的产物。根据EMC在2011年的提法,大数据是指由数量巨大、结构复杂、类型众多的数据构成的数据集合,所涉及的资料库规模巨大到无法通过目前的主流软件工具、在合理的时间内达到撷取、管理、处理并整理为帮助企业进行经营决策的更为积极目的的资讯。换句话说,大数据的核心就是解决数据处理的问题。

大数据的特点

对于非结构化、多元、异构、实时的数据,怎么样能够挖掘出对于企业直接有用的信息,这是要解决的一个关键问题,这就要分析矛盾的主要方面,也就是大数据的特征:规模化(Volume)、多样化(Variety)、高速率(Velocity)、低价值(Value),再加上一个真实性(Veracity)。

大数据最显著的一个特征就是实时分析而非批量式分析,追求立竿见影的效果而不是事后见效。以智能交通为例,希望能够借助智能交通的大数据来解决交通拥堵,解决方案必须能够进行实时响应,比如处理两车防碰撞的响应时间要求为毫秒级。此外,大数据主要分析的是相关性而不是因果关系,是对未来趋势与模式的可预测分析,以及深度复杂性分析而不是传统的商务智能。例如对慢性病的研究,日本高血压的情况与生活习惯、区域特征、人群症候相关;我国沿海地区,突发痛风比较多与当地人吃海鲜、喝啤酒直接相关。因此,大数据研究的不是随机小样本,而是全样本;不是样本数据的“收集汇聚”,而是全本的“自然记录”;不是精确性,而是混杂性;不是因果关系,而是相关关系。

大数据也带来挑战和技术问题。大数据带来的挑战包括:数据汇聚与融合;数据共享、分析与挖掘;自主知识产权的技术和产品;以及人才、政策、法律法规等。在数据汇聚与融合方面,据陈曙东介绍,2010年我国新存储的数据仅为日本的60%和北美的7%,但一些部门和机构拥有大数据却不能共享,导致数据不完整或重复投资。在智慧城市建设过程当中,各管理层、政府各部门之间存在数据鸿沟,如果数据不共享出来,就无法从多个维度分析数据的相关性。在数据分析和挖掘方面,需要强调大数据挖掘要有法可依,提倡数据共享又要防止数据被滥用。目前,我国在自主可控的大数据分析技术和产品方面与发达国家相比仍有差距,过分依赖国外的大数据平台,难以回避信息泄露的风险。

我国大数据的技术现状

陈曙东介绍了我国大数据的技术现状。在基础技术与系统方面,我国小部分关键技术如超级计算和中文信息处理等处于国际先进甚至领先水平,大部分关键技术长期紧跟国际前沿,如网络计算平台软件技术、海量存储系统和数据处理技术、软件开发技术等;缺乏具有原创性和自主可控性的软件,难以满足应用与产业需求。在分析方法与算法方面,我国长期紧跟国际前沿而原创性不足,应用牵引不足导致研究实用性和易用性偏弱,难以满足应用与产业需求。在应用行业与领域方面,我国互联网大数据应用水平和效果接近国际先进水平,其他行业和企业的大数据应用水平和效果还较落后,特别是政府大数据应用明显滞后。当然,陈曙东表示这几年也看到国内在大数据方面的可喜进展,她认为我国大数据前途非常光明。

目前,我国大数据技术体系开始显现。在基础技术与系统方面,形成了优化的计算、存储和网络体系结构,具有数据管理系统软件、大数据编程模型和并行处理框架、感知与交互系统、安全与隐私等能力。 在分析方法与算法方面,形成了数据建模、语义分析、关联分析、情感分析、数据挖掘、知识发现和数据可视化等能力。在应用行业与领域,科学研究、商业分析、金融、政府管理、公共安全、交通、医疗卫生等行业都出现了大数据技术的应用。在大数据技术链条中,形成了大数据的获取存储、初筛清洗标记、集成整合描述、分析建模、服务共享交易等能力。

在大数据与云计算的关系方面,陈曙东认为大数据与云计算是相辅相成的关系。没有大数据的信息积淀,云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,数据信息的沉淀再丰富,也无法处理。大数据必须要依赖于云计算,才能进行实际的应用。云计算的虚拟化技术、分布式处理技术、海量数据的存储和管理技术、实时流数据处理、智能分析技术等,为大数据的应用提供了技术平台。

中科院的物联网大数据全生命周期管理

中科院推出了海云分布文件系统ScDFS,其优势包括把结构化和非结构化的数据进行统一的虚拟化存储;对物联网时空数据进行存储和高效读取,支持时空范围索引;支持容灾备份、动态扩容;提供友好的用户界面,可视化工具(GUI)、封装访问和控制API并提供相关的SDK。

陈曙东认为,数据存储不是目的,高效地为上层的应用进行数据的服务和支撑、实时响应,这才是大数据的真正的目的。也就是说,要对时空数据进行高效的存取,同时实现负载平衡。中科院物联网大数据分析原型系统,针对不同应用,设计了混合计算框架。对非实时计算采用Hadoop MapReduce,进行离线批处理计算。对准实时计算,改造了Hadoop MapReduce。对于实时计算,则采用流计算的模式,实时响应时间为毫秒级。在优化Web Service方面,该物联网大数据分析原型系统能够提高海量数据传输的效率和可靠性,采用压缩、信令与数据分离传输等方法。

中科院还把这种实时和非实时的计算模式结合起来,融合到物联网大数据全生命周期管理系统中,该系统目前已经实现产业化。物联网大数据全生命周期管理系统用数据全生命周期管理方法来实现大数据增值和可交易的软件系统大数据思考,技术上整合了云计算、大数据分析及数据交换交易三种功能,可实现云存储、云计算、PB级大数据分析、挖掘等功能。云计算运营商或第三方数据供应商,可以通过该系统出售有价值的数据。

中科院还对传统数据挖掘分析算法中的指标统计算法、分类算法、聚类算法、频繁模式分析算法和特征化算法等进行了并行化设计重建,并应用到南京市出租车GPS数据分析、品牌笔记本网络评论数据分析、公安大数据存储平台等。在其中,有很多形成新商业模式的机会。

陈曙东非常强调大数据的一个概念就是数据交易,她认为数据交易是接下来大数据发展的一个重要方向。在数据共享和数据交易过程当中,将产生隐私问题,因此需要相应的法律法规,也需要自有知识产权的技术和产品。

(编辑:晋中站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!