我的目标是使用weka将一堆推文分类为预定义的3个类(比如新闻,教育,体育)
在这种情况下,训练集和测试集是不同的。(训练冗长的网页,只测试一两行推文)。
如何针对此问题执行'N'折叠交叉验证。
我是否需要混合训练和测试数据集来构成单个文件并应用'n'折叠交叉验证或者我是否需要先训练分类器然后对测试集应用'n'折叠交叉验证WEKA。
我认为后者有道理但我不确定。请帮我解决这个问题。
答案 0 :(得分:0)
您的数据的性质在训练和集合中应该相同。此要求使N折叠交叉验证技术可用。
对于与模型选择相关的问题,请看一下: https://vimeo.com/29569892