从产品在线评论中提取方面

时间:2019-10-26 15:47:09

标签: text sentiment-analysis feature-extraction apriori

我正在尝试实现Mining and Summarizing Customer Reviews文章中的方面提取方法。我试图通过关联规则挖掘(Apriori算法)查找所有常见特征。首先我应用了预处理功能(POS-Tagging,停用词,PorterStemmer)到类似于文章的句子。然后,我将每个句子中的名词/名词短语提取到交易文件中,并以

的csv格式保存

this

之后,我将apriori算法应用于此交易文件,并获得了频繁的商品集,如下所示: enter image description here

在文章中有紧密修剪阶段:

此方法检查功能 至少包含两个词,我们称之为特征短语, 并删除那些可能毫无意义的内容。 在关联挖掘中,该算法未考虑 项目(或单词)在交易(或交易)中的位置 句子)。但是,在自然语言句子中,单词 一起出现并以特定顺序出现的可能性更大 成为有意义的短语。因此,一些经常 关联挖掘产生的特征短语可能不会 是真正的功能。紧凑修剪的想法是 修剪那些不出现单词的候选特征 一起。我们使用候选单词之间的距离 功能词组(itemset)进行修剪。

定义: •令f为常用特征短语,且f包含n 话。假设一个句子s包含f和 出现在s中的f中的单词的顺序为:w1,w2, …,wn。如果任何两个词之间的距离以s为单位 上述顺序中的相邻单词(wi和wi + 1)是 不大于3,那么我们说f在s中是紧致的。 •如果评论数据库中的m个句子中出现f,并且 它在m个句子中至少有2个是紧凑的,那么我们

我想知道如何实现修剪阶段以及如何计算句子中单词之间的距离。我还想知道像我一样考虑项目集中的名词短语吗?

0 个答案:

没有答案