是否可以找到客户评论是否专门针对特定主题? 如何使用NLP或NLTK完成此操作?一家电子商务公司的客户评论可以讨论运输速度有多快/慢,产品质量有多好/差..等等。 现在,如果我必须确定将评论分为两类,我该如何实现?
1)。运送缓慢 2)。质量不好
答案 0 :(得分:0)
您将使用一种称为主题建模的技术从(可能很大的)客户评论数据集中提取隐藏的主题。潜在狄利克雷分配(LDA)是一种用于识别基础文本中主题的常用算法。
记住以下两个原则可能会有所帮助
示例代码(使用Gensim,这是一个非常广泛的用于主题建模的Python库)
import gensim
from pprint import pprint
# .. Data preparation code ..
model = gensim.models.ldamodel.LdaModel(corpus, id2word=dictionary, num_topics=10)
pprint(model.print_topics())
上面的print_topics()
会为每个主题打印顶部关键字(基于它们的重要性)。有几种SO用户here发布的替代方法。
您可能希望参考this详细教程以获取完整的代码示例。
您可能要参考有关酒店评论主题建模的this问题。
希望对您有帮助。