如何识别数据集是结构化的还是非结构化的

时间:2018-07-03 23:51:17

标签: machine-learning data-structures dataset bigdata

我计划使用大数据机器学习对原始数据集(任何,如果是大数据)执行一些有用的任务。因此,我如何确定收集的数据集是结构化的还是非结构化的等。建议一些查询技术或步骤。预先感谢。

2 个答案:

答案 0 :(得分:1)

大数据几乎总是非结构化的。如果数据集足够干净整洁,可以使用传统分析工具(例如excel中的即用型)进行分析,则可能不是“大数据”。大数据往往是一个大的,非结构化的混乱。这就是人们聘请分析师和数据科学家的原因。

答案 1 :(得分:1)

结构化数据是基于模型或架构进行组织的。查询数据或对数据执行任何其他操作都非常简单(使用查询语言)。

如果  1.您的模型或架构没有帮助您执行基本操作。  2.您需要花更多的时间进行基础分析 您可以将它们归类为非结构化数据。

非结构化数据不是有组织的(并非总是如此),最好的例子是人类语言,您将需要使用NLP,文本挖掘或任何其他处理工具对其进行操作。