我这个CSV文件有评论(推文,评论)。我想将它们分为4类,即。
现在我遇到的问题是:
由于
答案 0 :(得分:2)
这将是一个复杂的问题。
查看scikit-learn他们有文本处理和分类教程。
答案 1 :(得分:1)
我不会那么快速地写下Naive Bayes。它在很多弱线索的领域都很好(如#34;重叠的单词"),但没有绝对的。这一切都取决于你传递的功能。我猜你是盲目地传递了一般的"字袋"功能,也许是在过滤掉停用词之后。好吧,如果那不起作用,那就试试吧。
一个好的方法是阅读几百条推文,看看你如何知道你正在看哪个类别。这会告诉你需要提炼出什么样的东西才能提炼成功能。但一定要查看大量数据,并关注一般模式。
一个例子(但请注意,我没有看着你的语料库):时间表达可能是关于你是在售前还是售后的好线索,但他们需要一些工作检测。创建一些功能"过去表达","未来表达"等等(另外到词袋功能),看看是否有帮助。当然,你需要首先弄清楚如何检测它们,但你不必完美:你可以做任何可以帮助分类器做出更好猜测的事情。 "过去时"尝试也可能是一个很好的功能。