应用错误收集

时间：2016-03-14 18:43:49

标签： nlp scikit-learn

我希望使用一些有关麻疹/ mmr疫苗的推文来了解接种疫苗的情绪如何随时间而变化。我计划从我目前拥有的数据语料库中创建训练集（除非有人建议我可以获得类似的数据）。

我想将推文分类为：Pro-vaccine，Anti-Vaccine，或者两者都没有（这些都是关于爆发的事实推文）。

所以问题是：大到多大？我想避免过度拟合的问题（所以我会进行测试训练分裂）但是当我包含越来越多的推文时，需要学习的功能数量会急剧增加。

我在想1000条推文（每条推文333条）。这里有任何意见，如果你能推荐一些资源，那也很好。

答案 0 :(得分：0)

更多总是更好。关于三向分割的1000条推文似乎相当雄心勃勃，我甚至会考虑将每个类别的1000条推文用于推文的三向分割。在可行的时间内尽可能多地标记。

此外，可能值得采用级联方法（尤其是数据量很少），即标记集合vaccine与non-vaccine，并在vaccine子集中标记设置pro vs anti。

根据我的经验，尝试模拟一个全能的“中立”类，其中包含的所有未明确“赞成”或“反”的内容都非常困难，因为噪音很大。特别是对于朴素贝叶斯这样的简单模型，我发现级联方法运行良好。