在weka中进行N折叠交叉验证以进行推文分类

时间:2014-02-20 07:44:20

标签: twitter classification weka text-mining document-classification

我的目标是使用weka将一堆推文分类为预定义的3个类(比如新闻,教育,体育)

在这种情况下,训练集和测试集是不同的。(训练冗长的网页,只测试一两行推文)。

如何针对此问题执行'N'折叠交叉验证。

我是否需要混合训练和测试数据集来构成单个文件并应用'n'折叠交叉验证或者我是否需要先训练分类器然后对测试集应用'n'折叠交叉验证WEKA。

我认为后者有道理但我不确定。请帮我解决这个问题。

1 个答案:

答案 0 :(得分:0)

您的数据的性质在训练和集合中应该相同。此要求使N折叠交叉验证技术可用。

对于与模型选择相关的问题,请看一下: https://vimeo.com/29569892