我计划使用大数据机器学习对原始数据集(任何,如果是大数据)执行一些有用的任务。因此,我如何确定收集的数据集是结构化的还是非结构化的等。建议一些查询技术或步骤。预先感谢。
答案 0 :(得分:1)
大数据几乎总是非结构化的。如果数据集足够干净整洁,可以使用传统分析工具(例如excel中的即用型)进行分析,则可能不是“大数据”。大数据往往是一个大的,非结构化的混乱。这就是人们聘请分析师和数据科学家的原因。
答案 1 :(得分:1)
结构化数据是基于模型或架构进行组织的。查询数据或对数据执行任何其他操作都非常简单(使用查询语言)。
如果 1.您的模型或架构没有帮助您执行基本操作。 2.您需要花更多的时间进行基础分析 您可以将它们归类为非结构化数据。
非结构化数据不是有组织的(并非总是如此),最好的例子是人类语言,您将需要使用NLP,文本挖掘或任何其他处理工具对其进行操作。