存储在数据库中的数据是结构化数据,因为它是以严格的格式表示的。例如,在关系数据库表中的每条记录,例如《数据库系统基础:初级篇》中图5.6的EMPLOYEE表,该表中的所有记录都遵循同一格式。对于结构化数据,为了创建数据库模式,一般都应用如《数据库系统基础:初级篇》中第3、第4、第7、第10和第11章中所描述的那些技术来详细设计数据库。然后DBMS将进行检查以确保所有数据遵循模式中所指定的结构和约束。
但是,并不是所有的数据都能被汇集并都能插入到设计好的结构化数据库中。在某些应用中,在知道数据将被如何存储和管理之前,就已经以特定的模式汇集。这些数据可能有特定的结构,但不是所有汇集来的信息都有同样的结构。可能某些属性会被多个实体所共享,但另一些属性可能仅存在于少量实体中。此外,在一些较新的数据项中随时可能会被引入附加属性,而且没有预先设计好的模式。这种类型的数据称为半结构化数据。为了表示半结构化数据,已经引入了大量的数据模型,这些模型一般都是基于树或图数据结构,而不是基于平面关系模型结构。
结构化数据和半结构化数据的关键区别在于模式结构(例如属性、联系和实体类型的名称)是如何被处理的。在半结构化数据中,模式信息与数据值混合在一起,因为每个数据对象可能有不同的、预先无法知道的多个属性。于是,这种类型的数据有时被称为自描述数据。考虑下面这个示例。我们想要汇集一份关于某研究项目的参考文献的清单。这些文献有些可能是书或技术报告,有些可能是期刊或会议论文集中的研究文章,有些甚至可能是整份期刊或会议论文集。显而易见,它们中的每一种都可能有不同的属性和不同的信息类型。就算是对于同类型的参考文献,例如会议论文,我们也有可能得到不同的信息。例如,一篇文章的引证或许非常完整,有着关于作者姓名、题目、论文集、页码等的完整信息,而其他文章的引证或许没有这样完整的信息。未来或许会出现新类型的参考文献来源,比如说网页或会议手册,而这些新类型的参考文献来源可能会有新的属性来描述它们。
半结构化数据可以用有向图来表示,如图10-1所示。图10-1中显示的信息与《数据库系统基础:初级篇》的图5-6中显示的结构化数据是对应的。我们可以看到,这种模型在表示复杂对象和嵌套结构的能力方面与对象模型(见图4-1)是类似的。图10-1中,用带箭头直线上的标号或标签表示模式名:属性名、对象类型(或实体类型或类)以及联系。内部结点表示单个对象或组合属性。叶结点表示简单(原子)属性的实际数值。
分享到:
相关推荐
非结构化数据存储,包含完整的代码和响应的数据库。
不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等
半结构化信息和非结构化信息,数据库itrix技术探讨
oracle非结构化数据存储,很好的资料,希望能给大家带来帮助,谢谢
结构化数据检索,如对数据库的搜索,用SQL语句,再如对元数据的搜索,如利用windows搜索对文件名,类型,修改时间进⾏行搜索等。
半结构化数据频繁模式挖掘相关技术研究 半结构化数据频繁模式挖掘相关技术研究
作为互联网中重要数据形式之一,半结构...首先介绍了半结构化数据的概念及其特点,在此基础上分别从半结构化数据表示、数据模型两方面对半结构化数据模型进行介绍,最后总结半结构化数据模式与之前关系数据模式间的差别。
非结构化实验室-非结构化数据管理解决方案白皮书(2020 版)-2020.9-57页精品报告2020.pdf
非结构化数据爬取
非结构化数据管理解决方案,阐述非结构化数据管理原理及实现技术
随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据...基于该类平台,企业替代了业务处理中的纸质化传输,实现了海量非结构化内容数据的采集、加工、传递及服务的全生命周期的数据整合,大幅提升了生产效率。
应用该包,可以实现非结构化数据的查询,将结构化数据load内存
非结构化数据的三维关系存储模型,吴金朋,宋美娜,该论文参考并借鉴了一些主流非结构化数据处理方案,并在此基础上进行了改进,提出一种通用的非结构化数据存储于管理方案。该方案
网页挖掘 超文本和半结构化数据分析技术网页挖掘 超文本和半结构化数据分析技术网页挖掘 超文本和半结构化数据分析技术网页挖掘 超文本和半结构化数据分析技术
Informatica PowerCenter非结构化数据选项扩展了PowerCenter的数据集成功能,可提供对非结构化数据格式的访问。利用该选项,IT组织几乎可以从任何业务系统以任意格式无缝地访问、发现和集成数据,包括文档中锁定的...
1、银行数据全生命周期管理探讨 2、海量非结构化数据特点及使用 3、海量非结构化数据技术要点与实现
大规模非结构化数据的云计算技术和解决方案(2)pdf,提供“大规模非结构化数据的云计算技术和解决方案(2)”免费资料下载,主要包括大数据、不同技术处理大数据的能力、分布式计算之MapReduce、NoSQL数据库、关系型...
元模型(CWM)以及在ETL实现中的作用,详细分析了结构化数据和非结构化数据的不同特点。针对两种数据的差异,提出 了解决非结构化数据的属性提取和数据打包的方法,为非结构化数据形成元数据奠定了基础,从而实现了非...
面向云存储的非结构化数据存储研究....
医疗非结构化知识图谱抽取数据集