应用错误收集

时间：2012-03-04 13:05:16

标签： algorithm machine-learning data-mining

我有大量（100-150）小（约1千字节）的数据集。我们将这些称为“好”数据集。我也有类似数量的“坏”数据集。

现在我正在寻找软件（或者可能是算法）来查找构成“好”数据集与“坏”数据集的规则。

重要的是软件能够处理多个数据集，而不仅仅是一个大数据集。

非常感谢保罗。

答案 0 :(得分：2)

这似乎是一个分类问题。如果您有许多标记为“好”或“坏”的数据集，您可以训练分类器来预测新数据集的好坏。

决策树，k-近邻，SVM，神经网络等算法是您可以使用的潜在工具。

但是，您需要确定将用于训练分类器的属性。

答案 1 :(得分：1)

一种常见的方法是使用k-nearest neighbor。

例如，从数据集中提取字段 - 如果数据集是文本，提取字段的常用方法是使用bag of words。

存储“训练集”，当新的数据集[未标记]到达时 - 根据提取的字段找到与其最近的k个邻居[]。将新数据集列为最近的k个最近邻居[来自训练集]。

另一种常见方法是使用decision tree。决策树的问题 - 不要使决策过于具体。可能用于创建良好[启发式]树的现有算法是ID3