因此,我有3个用于情感分析的数据集,并且我只想使用1个数据集来构建模型,而其余数据集仅用于测试目的。我将使用的模型是SVM(SMO算法)。最初的数据集仅具有2个属性(文本,标签),但是在使用字符串到wordvector进行预处理之后,它变成了许多属性。我能够构建模型并使用10倍交叉验证对其进行测试,现在我想使用其他数据集对其进行测试。但是由于由于字符串到单词向量的不同而具有不同的属性,所以我不能这样做。我的问题有解决办法吗?
我已经对测试集进行了相同的预处理,并尝试使用“ inputmappedclassifier”,但结果仍然是错误的
我希望该模型可以用于从未见过的数据集
答案 0 :(得分:0)
请参见http://jmgomezhidalgo.blogspot.com/2013/05/mapping-vocabulary-from-train-to-test.html
如果您既了解训练数据又了解测试数据,则可以使用批量过滤。
如果您不知道测试数据,则可以使用FilteredClassfier方法。选中http://jmgomezhidalgo.blogspot.com/2013/01/text-mining-in-weka-chaining-filters.html和http://jmgomezhidalgo.blogspot.com/2013/04/a-simple-text-classifier-in-java-with.html