情绪分析的适当训练集大小是什么?

时间:2016-03-14 18:43:49

标签: nlp scikit-learn

我希望使用一些有关麻疹/ mmr疫苗的推文来了解接种疫苗的情绪如何随时间而变化。我计划从我目前拥有的数据语料库中创建训练集(除非有人建议我可以获得类似的数据)。

我想将推文分类为:Pro-vaccine,Anti-Vaccine,或者两者都没有(这些都是关于爆发的事实推文)。

所以问题是:大到多大?我想避免过度拟合的问题(所以我会进行测试训练分裂)但是当我包含越来越多的推文时,需要学习的功能数量会急剧增加。

我在想1000条推文(每条推文333条)。这里有任何意见,如果你能推荐一些资源,那也很好。

1 个答案:

答案 0 :(得分:0)

更多总是更好。关于三向分割的1000条推文似乎相当雄心勃勃,我甚至会考虑将每个类别的1000条推文用于推文的三向分割。在可行的时间内尽可能多地标记。

此外,可能值得采用级联方法(尤其是数据量很少),即标记集合vaccinenon-vaccine,并在vaccine子集中标记设置pro vs anti

根据我的经验,尝试模拟一个全能的“中立”类,其中包含的所有未明确“赞成”或“反”的内容都非常困难,因为噪音很大。特别是对于朴素贝叶斯这样的简单模型,我发现级联方法运行良好。