Java/Java开发框架 数据库相关教程 大数据相关教程 HTML/CSS相关教程 JavaScript/前端框架 开发工具相关教程 后端开发相关教程 Java开发技术 Java面试题库 Java架构设计 大数据资讯 大数据技术 大数据应用 Python开发技术 HTML HTML5 CSS JavaScript jQuery Vue AngularJS MySQL Oracle SQLServer MongoDB Redis

大数据数据来源:结构化、半结构化、非结构化数据的概念和理解

发布时间:2020-07-28 09:53:18  作者:Java大数据  来源:本站原创  浏览次数:

摘要:本文是介绍大数据的来源数据结构的概念,包括:结构化数据、半结构化数据非结构化数据的概念和理解。大数据采集技术是指通过 RFID 数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。

大数据本身是一种现象而不是一种技术。大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的数据处理技术。

本文是介绍大数据的来源数据结构的概念,包括:结构化数据、半结构化数据非结构化数据的概念和理解。大数据采集技术是指通过 RFID 数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。

结构化和非结构化数据概念.png

1.结构化数据

定义:业界指关系模型数据,即以关系数据库表形式管理的数据

简析:虽然专业角度上看,结构化就是关系模型的说法并不准确,但针对目前业内现状,还是定义为关系模型最为妥善,因为它准确的代表了我们传统上最熟悉的企业业务数据。

2.半结构化数据

定义:非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、Email等。

结构树数据-非结构化数据-概念.jpg

3.非结构化数据

定义:没有固定模式的数据,如WORD、PDF、PPT、EXL,各种格式的图片、视频等。

非结构化数据解析.jpg

简析:区分半结构化与非结构化的意义在于,对两者的处理方法是不同的,非结构化数据大多采用内容管理方法,而半结构化数据基本没有有效的管理方法。

总结

(1)结构化、半结构化、非结构化其实是按照数据格式分类。

(2)严格讲,结构化与半结构化数据都是有基本固定结构模式的数据

(3)半结构与非结构化数据与目前流行的大数据之间只是有领域重叠的关系,本质讲两者并无必然联系。

(4)业界有将大数据认同为半结构/非结构化数据,是因为大数据技术最初是在半结构化数据领域发挥作用,其本质是将数据处理技术与数据格式混淆,是不正确的。

文章关键词: 大数据 数据来源 结构化数据 半结构化数据 非结构化数据

  • 0

    开心

  • 0

    板砖

  • 0

    感动

  • 0

    有用

  • 0

    疑问

  • 0

    难过

  • 0

    无聊

  • 0

    震惊

评论已有 0

相关文章

加载更多