应用错误收集

用重叠的单词分类句子

时间：2015-12-15 08:37:40

标签： python twitter nltk document-classification

我这个CSV文件有评论（推文，评论）。我想将它们分为4类，即。

售前
售后
购买
服务查询

现在我遇到的问题是：

每个人之间都有大量的重叠词类别，因此使用NaiveBayes失败。
推文的大小只有160个字符，最好的方法是什么防止一个类别的词落入另一个类别。
我应该选择哪些方法来处理可以处理160条推文和更长篇Facebook评论的功能。
请让我知道任何参考链接/教程链接，以便跟进相同的内容，成为此领域的新手

由于

2 个答案:

答案 0 :(得分：2)

这将是一个复杂的问题。

您如何定义类别？获取尽可能多的推文和FB帖子，并使用正确的类别标记它们以获得一些基本事实数据
然后，您可以使用以下方法确定哪些词/短语最适合识别特定类别PCA

查看scikit-learn他们有文本处理和分类教程。

答案 1 :(得分：1)

我不会那么快速地写下Naive Bayes。它在很多弱线索的领域都很好（如＃34;重叠的单词＆＃34;），但没有绝对的。这一切都取决于你传递的功能。我猜你是盲目地传递了一般的＆＃34;字袋＆＃34;功能，也许是在过滤掉停用词之后。好吧，如果那不起作用，那就试试吧。

一个好的方法是阅读几百条推文，看看你如何知道你正在看哪个类别。这会告诉你需要提炼出什么样的东西才能提炼成功能。但一定要查看大量数据，并关注一般模式。

一个例子（但请注意，我没有看着你的语料库）：时间表达可能是关于你是在售前还是售后的好线索，但他们需要一些工作检测。创建一些功能＆＃34;过去表达＆＃34;，＆＃34;未来表达＆＃34;等等（另外到词袋功能），看看是否有帮助。当然，你需要首先弄清楚如何检测它们，但你不必完美：你可以做任何可以帮助分类器做出更好猜测的事情。＆＃34;过去时＆＃34;尝试也可能是一个很好的功能。