Question

我有一个较大的数据集，我正在使用Weka进行探索。它是这样的：今天我将尽可能多地分析数据，并创建一个训练有素的分类器。我将此模型保存为文件。然后明天我将获得一批新数据，并希望使用保存的模型来预测新数据的类。这每天都在重复。最终我将更新保存的模型，但现在假设它是静态的。

由于此任务的大小和频率，我想自动运行，这意味着命令行或类似。但是，我的问题也存在于资源管理器中。

我的问题与以下事实有关：随着我的数据集的增长，属性的可能标签列表也会增长。 Weka说这样的属性列表不能改变，或者训练集和测试集被认为是不兼容的（参见：http://weka.wikispaces.com/Why+do+I+get+the+error+message+%27training+and+test+set+are+not+compatible%27%3F）。但在我的世界中，我今天无法知道下周我将偶然发现的所有属性标签。

为了纠正这种情况，建议我运行批量过滤（http://weka.wikispaces.com/How+do+I+generate+compatible+train+and+test+sets+that+get+processed+with+a+filter%3F）。好吧，这似乎意味着我需要每天使用重新过滤的训练数据重建我的模型。

此时整个事情看起来很难，我担心我会犯一个可怕的，简单的新手错误，所以我求助。

详情：

该模型由

创建

java -Xmx1280M weka.classifiers.meta.FilteredClassifier ^
    -t .\training.arff -d .\my.model -c 15 ^
    -F "weka.filters.supervised.attribute.Discretize -R first-last" ^
    -W weka.classifiers.trees.J48 -- -C 0.25 -M 2

天真地预测我会尝试：

java -Xmx1280M weka.core.converters.DatabaseLoader ^
    -url jdbc:odbc:(database) ^
    -user (user) ^
    -password (password) ^
    -Q "exec (my_stored_procedure) '1/1/2012', '1/2/2012' " ^
    \> .\NextDay.arff

然后：

java -Xmx1280M weka.classifiers.trees.J48 ^
    -T .\NextDay.arff ^ 
    -l .\my.model ^ 
    -c 15 ^
    -p 0 ^ 
    \> .\MyPredictions.txt

这会产生：

java.lang.Exception: training and test set are not compatible
at weka.classifiers.Evaluation.evaluateModel(Evaluation.java:1035)
at weka.classifiers.Classifier.runClassifier(Classifier.java:312)
at weka.classifiers.trees.J48.main(J48.java:948)

相关问题请访问kdkeys.net/training-and-test-set-are-not-compatible-weka /

相关问题是数据库提取的命令行版本需要生成临时.arff文件，并且看起来JDBC生成的arff文件无法正确处理“日期”数据。我的数据库生成ISO-8601格式“yyyy-MM-dd'T'HH：mm：ss”的日期，但是JDBC数据库和JDBC数据生成的.arff文件都将这些文件表示为NOMINAL类型。因此，标题中日期属性的标签列表非常非常长，从数据集到数据集从不相同。

我不是java或python程序员，但如果这就是它需要的东西，我会去买一些书！提前谢谢。

Answer 1

我认为您可以使用增量分类器。但只有少数分类器可以支持此选项。像SMO一样，J48分类器不支持这一点。因此，您将使用其他分类器进行分类。

了解更多信息

http://weka.wikispaces.com/Classifying+large+datasets

http://wiki.pentaho.com/display/DATAMINING/Handling+Large+Data+Sets+with+Weka

Answer 2

似乎你的计划也存在更大的问题。如果您拥有第1天的数据并且使用它来构建模型，那么您将使用它来自第n天的数据，这些数据具有新的且从未见过的类标签，因为没有训练数据，所以无法预测新标签对他们来说同样，如果您有新属性，则无法使用这些属性进行分类，因为您的训练数据都不会将它们与类标签相关联。

因此，如果您想使用仅对新数据属性/类的子集进行数据训练的模型，那么您也可以过滤新数据以删除新类/属性，因为它们不会被使用即使你可以在两个不同的数据集上执行weka而没有错误。

如果它不在您的训练集中，请将其从测试集中排除。一切都应该有效。如果您需要能够对其进行测试/预测，那么您需要重新训练具有新类/属性示例的新模型。

在您的环境中执行此操作可能需要手动将数据库中的数据查询到arff文件中，以便仅查询训练集中的属性/类。查看sql和任何主要的脚本语言（例如perl，python）来做到这一点，不用大惊小怪。

Answer 3

维护Weka的大学还创建了MOA（大规模在线分析）来分析和解决您的问题。它们的所有分类器都是可更新的，您可以比较数据流的分类器性能。它还允许您检测模型的变化（概念漂移/移位）并优化（即限制）您的数据窗口（忘记旧数据机制......）。

完成MOA测试和调优后，您可以使用Weka的MOA分类器（有一个扩展来启用它）并批量处理所有过程。

为Weka构建兼容的数据集，以获取大量不断发展的数据

3 个答案: