我试图在英语句子中检测产品的特征(例如:屏幕,处理速度)(例如:分别为:mobile)。为此,我的方法是在一个包含多个句子的段落(谈论产品)中,最常出现的单词(除了像代词或感觉词之类的单词,如我存储在文件中的好,坏等)这个产品的特点,所以我根据他们的频率和他们与情感词的距离进行排名,并把它们排在前面。
然而,它不是很有效。任何人都可以建议一些其他更好的方法来检测产品功能的单词吗?
答案 0 :(得分:2)
在这方面进行了大量的研究。从阅读刘冰在该领域的开创性工作(Liu 2004,Liu 2005)开始。
一种流行的技术是使用Stanford CodeNLP的依赖关系图。 您可以使用 nsubj 依赖关系将规则与名词( NN )连接到形容词( JJ )。对于基本系统,这种5-10规则就足够了。
该领域的最新技术使用序列标记方法(CRF / HMM)来标记每个单词,无论它是否是特征术语。但是,您需要大量标记数据。检查基于方面的情感分析
领域的近期工作您的帮助资源:
http://alt.qcri.org/semeval2015/task12/
http://www.aueb.gr/users/ion/docs/pavlopoulos_phd_thesis.pdf
http://www.aclweb.org/anthology/S14-2004