用重叠的单词分类句子

时间:2015-12-15 08:37:40

标签: python twitter nltk document-classification

我这个CSV文件有评论(推文,评论)。我想将它们分为4类,即。

  • 售前
  • 售后
  • 购买
  • 服务查询

现在我遇到的问题是:

  1. 每个人之间都有大量的重叠词 类别,因此使用NaiveBayes失败。
  2. 推文的大小只有160个字符,最好的方法是什么 防止一个类别的词落入另一个类别。
  3. 我应该选择哪些方法来处理可以处理160条推文和更长篇Facebook评论的功能。
  4. 请让我知道任何参考链接/教程链接,以便跟进相同的内容,成为此领域的新手
  5. 由于

2 个答案:

答案 0 :(得分:2)

这将是一个复杂的问题。

  1. 您如何定义类别?获取尽可能多的推文和FB帖子,并使用正确的类别标记它们以获得一些基本事实数据
  2. 然后,您可以使用以下方法确定哪些词/短语最适合识别特定类别PCA
  3. 查看scikit-learn他们有文本处理和分类教程。

答案 1 :(得分:1)

我不会那么快速地写下Naive Bayes。它在很多弱线索的领域都很好(如#34;重叠的单词"),但没有绝对的。这一切都取决于你传递的功能。我猜你是盲目地传递了一般的"字袋"功能,也许是在过滤掉停用词之后。好吧,如果那不起作用,那就试试吧。

一个好的方法是阅读几百条推文,看看如何知道你正在看哪个类别。这会告诉你需要提炼出什么样的东西才能提炼成功能。但一定要查看大量数据,并关注一般模式。

一个例子(但请注意,我没有看着你的语料库):时间表达可能是关于你是在售前还是售后的好线索,但他们需要一些工作检测。创建一些功能"过去表达","未来表达"等等(另外到词袋功能),看看是否有帮助。当然,你需要首先弄清楚如何检测它们,但你不必完美:你可以做任何可以帮助分类器做出更好猜测的事情。 "过去时"尝试也可能是一个很好的功能。