我正在使用Pandas,NLTK和TextBlob对文档进行文本分析。我只想获取预定义术语的频率。文档中的行是评论,并且单词之间的关联的预定义列表构成了评论的好坏。好的评论可能具有(容易->使用),(服务->良好),而不好的评论可能具有(费用->较低),(更容易->制作)。
我想做的是使用这些关联将评论分类为好还是不好,例如,如果特定行中的文本具有“易用”和“使用”紧密相关,还是“服务”和“良好” ”。我所坚持的是结构–我该如何提出一个“好”和“坏”的元组字典,并用它与n-gram或某些东西来得出关联?