应用错误收集

在weka中进行N折叠交叉验证以进行推文分类

时间：2014-02-20 07:44:20

标签： twitter classification weka text-mining document-classification

我的目标是使用weka将一堆推文分类为预定义的3个类（比如新闻，教育，体育）

在这种情况下，训练集和测试集是不同的。（训练冗长的网页，只测试一两行推文）。

如何针对此问题执行'N'折叠交叉验证。

我是否需要混合训练和测试数据集来构成单个文件并应用'n'折叠交叉验证或者我是否需要先训练分类器然后对测试集应用'n'折叠交叉验证WEKA。

我认为后者有道理但我不确定。请帮我解决这个问题。

1 个答案:

答案 0 :(得分：0)

您的数据的性质在训练和集合中应该相同。此要求使N折叠交叉验证技术可用。

对于与模型选择相关的问题，请看一下： https://vimeo.com/29569892