使用大量小数据集进行关联挖掘

时间:2012-03-04 13:05:16

标签: algorithm machine-learning data-mining

我有大量(100-150)小(约1千字节)的数据集。 我们将这些称为“好”数据集。 我也有类似数量的“坏”数据集。

现在我正在寻找软件(或者可能是算法)来查找构成“好”数据集与“坏”数据集的规则。

重要的是软件能够处理多个数据集,而不仅仅是一个大数据集。

非常感谢 保罗。

2 个答案:

答案 0 :(得分:2)

这似乎是一个分类问题。如果您有许多标记为“好”或“坏”的数据集,您可以训练分类器来预测新数据集的好坏。

决策树,k-近邻,SVM,神经网络等算法是您可以使用的潜在工具。

但是,您需要确定将用于训练分类器的属性。

答案 1 :(得分:1)

一种常见的方法是使用k-nearest neighbor

例如,从数据集中提取字段 -​​ 如果数据集是文本,提取字段的常用方法是使用bag of words

存储“训练集”,当新的数据集[未标记]到达时 - 根据提取的字段找到与其最近的k个邻居[]。将新数据集列为最近的k个最近邻居[来自训练集]。

另一种常见方法是使用decision tree。决策树的问题 - 不要使决策过于具体。可能用于创建良好[启发式]树的现有算法是ID3