数据挖掘与非结构化数据如何实现?

时间:2017-10-18 04:25:28

标签: bigdata data-mining text-mining

我有非结构化数据(应用程序的屏幕截图)和半结构化数据(屏幕转储文件),我选择将其存储在hbase中。我的目标是在app上找到缺陷或问题(有意义的数据)。现在,我想对这些应用数据挖掘,这是一种文本挖掘?以及如何在这些数据上应用一些数据挖掘技术?

1 个答案:

答案 0 :(得分:0)

  • 首先,您可以使用基于规则的方法来定义检测缺陷方案的规则集。
  • 然后您可以准备具有许多缺陷,非缺陷场景的训练数据集。在此步骤中,为您收集的每个屏幕截图或屏幕转储文件;你会手动将其标记为缺陷或无缺陷。
  • 然后您可以使用此训练数据训练分类器。分类器将尝试概括训练样本以预测过去未见的样本的输出标签。
  • 由于您的输入是非标准的,您可能需要进行一些预处理才能将输入转换为标准格式。例如,要处理屏幕截图,您可能需要一些图像处理,OCR,计算机视觉库。