我希望使用一些有关麻疹/ mmr疫苗的推文来了解接种疫苗的情绪如何随时间而变化。我计划从我目前拥有的数据语料库中创建训练集(除非有人建议我可以获得类似的数据)。
我想将推文分类为:Pro-vaccine,Anti-Vaccine,或者两者都没有(这些都是关于爆发的事实推文)。
所以问题是:大到多大?我想避免过度拟合的问题(所以我会进行测试训练分裂)但是当我包含越来越多的推文时,需要学习的功能数量会急剧增加。
我在想1000条推文(每条推文333条)。这里有任何意见,如果你能推荐一些资源,那也很好。
答案 0 :(得分:0)
更多总是更好。关于三向分割的1000条推文似乎相当雄心勃勃,我甚至会考虑将每个类别的1000条推文用于推文的三向分割。在可行的时间内尽可能多地标记。
此外,可能值得采用级联方法(尤其是数据量很少),即标记集合vaccine
与non-vaccine
,并在vaccine
子集中标记设置pro
vs anti
。
根据我的经验,尝试模拟一个全能的“中立”类,其中包含的所有未明确“赞成”或“反”的内容都非常困难,因为噪音很大。特别是对于朴素贝叶斯这样的简单模型,我发现级联方法运行良好。