预定义的可再分配文本分类

时间:2018-02-10 03:04:59

标签: machine-learning nlp stanford-nlp multiclass-classification

友 我们正在尝试解决一个只有评论转储的问题,但.csv文件中没有评级。 .csv中的每一行都是由特定产品的客户给出的一个评论,让电视。

在这里,我想将该文本分类为该产品的领域专家给出的下面预定义的类别:

  • 质量
  • 客户
  • 支持
  • 积极反馈
  • 价格
  • 技术

一些评论如下:

  1. 最近买了这个产品,感觉市场上很棒的产品。
  2. 长期以来一直在等待这个产品,但很失望
  3. 建筑质量不是很好
  4. LED屏幕画面完美。喜欢这个产品
  5. 达姆! 2个月前买了这台电视,猜猜是什么,屏幕显示直线,劣质LED屏幕
  6. 这个选项非常复杂,这部电视的文档不是那么用户友好
  7. 我无法使用智能设备连接此电视。根本不起作用
  8. 客户支持非常差。我不推荐这个
  9. 效果很好。伟大的产品
  10. 现在,通过10个不同客户的10次评论,我如何将它们分类到给定的桶中(您可以通过情感分析调用多标签分类或命名实体识别或信息提取,或者无论如何)

    我尝试了所有NLP字频率计数相关的东西(在R中)并引用了StanfordNLP(https://nlp.stanford.edu/software/CRF-NER.shtml)等等。但无法得到具体的解决方案。

    有人可以指导我们如何解决这个问题?谢谢!!!

1 个答案:

答案 0 :(得分:0)

大多数NLP框架将处理多类分类。 R中的字数本身不太可能非常准确。您可以探索的Python图书馆是Spacy。也可以使用Google,AWS,Microsoft等商业API。每个类别的培训需要相当多的例子。随意发布您的代码以及您看到的问题或性能差距,以获得进一步的帮助。