加入收藏 | 设为首页 | 会员中心 | 我要投稿 晋中站长网 (https://www.0354zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

我被“非结构化数据包围了”,请求支援!

发布时间:2019-09-10 22:51:01 所属栏目:教程 来源:数据技术及产品部
导读:阿里妹导读:非结构化数据的内容占据了当前数据海洋的80%。换句话来说,就是我们都被非结构化数据包围了。由于非结构化数据的信息量和信息的重要程度很难被界定,因此对非结构化数据的使用成为了难点。如果说结构化数据用详实的方式记录了企业的生产交易活
副标题[/!--empirenews.page--]

阿里妹导读:非结构化数据的内容占据了当前数据海洋的80%。换句话来说,就是我们都被“非结构化数据”包围了。由于非结构化数据的信息量和信息的重要程度很难被界定,因此对非结构化数据的使用成为了难点。如果说结构化数据用详实的方式记录了企业的生产交易活动,那么非结构化数据则是掌握企业命脉的关键内容,所反映的信息蕴含着诸多企业效益提高的机会。而对大部分组织而言,掌握先进的非结构化数据分析能力仍是从“大数据”中获得价值的重大挑战。

我被“非结构化数据包围了”,请求支援!

当前,数据技术及产品部对结构化数据处理和应用已经具备了成熟的技术以及产品方案。为了应对日益增长的非结构化数据诉求,非结构化数据体系通过覆盖非结构化数据规范、数据设计、算法能力、服务能力等来解决这一问题,该体系是对OneData体系的非结构化数据的补充和完善。已经赋能了集团内很多业务取得了非常好的效果,而这只是刚刚开始。

非结构化数据概述

“非结构化数据”是什么?相较于记录了生产、业务、交易和客户信息等的结构化数据,非结构化的信息涵盖了更为广泛的内容。非结构化数据指的是:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、 HTML、各类报表、图像和音频/视频信息等。

相对于结构化数据,非结构化数据具有以下特点:数据存储占比高、数据格式多样、结构不标准且复杂、信息量丰富、处理门槛高。

当前行业公认:非结构化数据占数据总量的80%以上。结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,非结构化数据包含各种办公文档、图片、视频、音频、设计文档、日志文件、机器数据等。

我被“非结构化数据包围了”,请求支援!

图:非结构化数据的占比图 图片来源:《大数据分析行业网》

非结构化数据没有预定义的数据模型,不方便用数据库二维逻辑表来表现。 下面对比一下结构化数据和非结构化数据的区别:

结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

结构化数据格式形式如图下:

我被“非结构化数据包围了”,请求支援!
图:结构化数据

非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。

非结构化数据-图片格式如下图所示:

我被“非结构化数据包围了”,请求支援!

图:非结构化数据 图片来源:《数字时代》

非结构化数据包含的信息量丰富。非结构化数据与结构化数据最大的区别在于蕴含信息量非常丰富,同样以图片为例,请看下图:

我被“非结构化数据包围了”,请求支援!

图:图片蕴含的信息 图片来源:淘宝

你看到了多少信息?不妨我们一起看一看:

  • 人物:女人,短发,佩戴项链,做了美甲,......
  • 衣服:女装,黑色T恤,长袖,低领,白色裤子,薄款,紧身
  • 文字:秋定制,流金诗意,2折包邮,custom

这是一些显性信息,可以看出一张图片里面的显性信息就已经很多了,当然还有很多隐形信息。比如:

  1. 衣服材质:纯棉
  2. 特点:时尚的版型,贴身,显身材......

由此可以看出非结构化数据隐含的信息量非常丰富。 非结构化数据一般不能直接使用,需要通过算法等手段进行处理。但因非结构化数据本身的特点,处理难度大。比如:对评论文本信息的情感分析。为了实现情感分析,需要使用算法进行复杂的处理,通过大量的数据训练才能完成。以商品评论数据来看,对于结构化的评论如下表:

我被“非结构化数据包围了”,请求支援!

结构化评论数据

可以直观看出用户感情是负向的。

同一个买家的非结构化评论:我在这家买了,缺少螺丝,商品还有划痕直接不管。

根据以上的评论内容,如果要确定买家的情感,就没那么简单了。需要使用NLP算法,并经过算法效果评估等一系列过程。

因此,当前非结构化数据的处理门槛还是很高,处理难度还比较大。

非结构化数据的价值及应用

非结构化数据因其包含丰富的内容、多样化的形态以及广阔的想象空间,必将引爆将来的市场,无论是娱乐、教育、医疗、生活等,都将产生更丰富的非结构化数据场景、使用更智能的数据处理方式。接下来,我们就针对当前的一些场景简单了解一下非结构化数据的价值。

ImageNet:改变AI和世界的图片[1]

2006 年,李飞飞开始反复思考一个问题。

当时的李飞飞才刚刚在伊利诺伊大学香槟分校(UIUC)任教,她看到整个学界和工业界普遍流行一种想法,都在致力于打造更好的算法,认为更好的算法将带来更好的决策,不论数据如何。

但李飞飞意识到了这样做的局限——即使是最好的算法,如果没有好的、能够反映真实世界的训练数据,也没办法用。

李飞飞的解决方案是:构建一个更好的数据集。

“我们要详细描绘出整个世界的物体。”李飞飞说。由此生成的数据集名叫 ImageNet。

(编辑:晋中站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读