我有大量(100-150)小(约1千字节)的数据集。 我们将这些称为“好”数据集。 我也有类似数量的“坏”数据集。
现在我正在寻找软件(或者可能是算法)来查找构成“好”数据集与“坏”数据集的规则。
重要的是软件能够处理多个数据集,而不仅仅是一个大数据集。
非常感谢 保罗。
答案 0 :(得分:2)
这似乎是一个分类问题。如果您有许多标记为“好”或“坏”的数据集,您可以训练分类器来预测新数据集的好坏。
决策树,k-近邻,SVM,神经网络等算法是您可以使用的潜在工具。
但是,您需要确定将用于训练分类器的属性。
答案 1 :(得分:1)
一种常见的方法是使用k-nearest neighbor。
例如,从数据集中提取字段 - 如果数据集是文本,提取字段的常用方法是使用bag of words。
存储“训练集”,当新的数据集[未标记]到达时 - 根据提取的字段找到与其最近的k个邻居[]。将新数据集列为最近的k个最近邻居[来自训练集]。
另一种常见方法是使用decision tree。决策树的问题 - 不要使决策过于具体。可能用于创建良好[启发式]树的现有算法是ID3