我不确定html是属于结构化,半结构化还是非结构化数据。我希望你能回答我这个问题。
答案 0 :(得分:1)
HTML是半结构化的。它包含具有确定的属性和层次结构的标记和元素。但是,这些标签的顺序和数量因文档而异。
答案 1 :(得分:0)
此帖子中的所有信息均可从以下网址找到:https://www.datamation.com/big-data/structured-vs-unstructured-data.html
据我所知,HTML是半结构化的。根据该站点的说法,“半结构化数据维护用于标识单独数据元素的内部标签和标记,从而可以进行信息分组和层次结构。”
结构化 结构化数据通常位于关系数据库(RDBMS)中。字段存储长度界定的数据电话号码,社会保险号或邮政编码。记录中甚至包含长度可变的文本字符串(如名称),这都使搜索变得简单。只要数据是在RDBMS结构中创建的,数据就可以是人工生成的或机器生成的。无论是通过人工生成的查询,还是通过使用数据类型和字段名称(例如字母或数字,货币或日期)的算法,都可以很好地搜索这种格式。
非结构化 非结构化数据本质上是其他所有内容。非结构化数据具有内部结构,但不能通过预定义的数据模型或架构进行结构化。它可以是文本的也可以是非文本的,并且可以是人为生成的或机器生成的。通常被认为对人类不可读,主要存在于CRM中。
差异 “除了存储在关系数据库中和存储在关系数据库之外之间存在明显的区别外,最大的区别是结构化数据与非结构化数据的易分析性。存在成熟的用于结构化数据的分析工具,但是用于挖掘非结构化数据的分析工具尚处于萌芽阶段,发展中。”
答案 2 :(得分:0)
HTML是半结构化的,因为我们可以在标记中组织不同种类的数据。
例如,<P>
用于段落,<ul>
用于列表,将属性添加到标记等。