NLP步骤或approch来分类文本?

时间:2017-01-20 12:59:03

标签: python nlp data-science

我正在开展一个项目,根据情绪(正面或负面)对餐厅评论进行分类。此外,我想分类,如果这些评论属于食品,服务,物有所值等类别。我无法链接互联网上提供的步骤或方法。任何人都可以提供详细的方法或步骤来解决问题。

1 个答案:

答案 0 :(得分:3)

如何使用文字袋模型。它已经过多年的尝试和测试。与更现代的方法相比,它有一些缺点,但你仍然可以获得不错的结果。互联网上有大量材料可以帮助您:

  • 将文档规范化为您的管道可以接收的表单
  • 将文档转换为向量并执行TF-IDF以过滤不相关的术语。 Here is a good tutorial。并将它们转换为矢量形式。
  • 拆分文档获取文档的一些子集,并根据类(情绪)/注释类型标记属于训练数据的文档。显然,您的文档将属于两个类。
  • 应用某种类型的降维技术,使您的模型更加健壮,good discussion is here
  • 在训练数据上训练模型。您需要至少两个模型一个用于情感,一个模型用于类型。有些算法仅适用于二进制类,因此您可能需要的不仅仅是注释类型(Food,Value,Service)的模型。这可能是一件好事,因为评论可以属于多个类别(食品质量和价值,或价值和服务)。 Scikit-learn有很多很好的模型,我强烈推荐orange toolbox它就像数据科学的GUI。
  • 使用验证集验证模型。如果你的准确度令人满意(大多数经典的方法,如SVM应该给你90%的利率)继续使用它来传入数据