我正在尝试实现Mining and Summarizing Customer Reviews文章中的方面提取方法。我试图通过关联规则挖掘(Apriori算法)查找所有常见特征。首先我应用了预处理功能(POS-Tagging,停用词,PorterStemmer)到类似于文章的句子。然后,我将每个句子中的名词/名词短语提取到交易文件中,并以
的csv格式保存之后,我将apriori算法应用于此交易文件,并获得了频繁的商品集,如下所示:
在文章中有紧密修剪阶段:
此方法检查功能 至少包含两个词,我们称之为特征短语, 并删除那些可能毫无意义的内容。 在关联挖掘中,该算法未考虑 项目(或单词)在交易(或交易)中的位置 句子)。但是,在自然语言句子中,单词 一起出现并以特定顺序出现的可能性更大 成为有意义的短语。因此,一些经常 关联挖掘产生的特征短语可能不会 是真正的功能。紧凑修剪的想法是 修剪那些不出现单词的候选特征 一起。我们使用候选单词之间的距离 功能词组(itemset)进行修剪。
定义: •令f为常用特征短语,且f包含n 话。假设一个句子s包含f和 出现在s中的f中的单词的顺序为:w1,w2, …,wn。如果任何两个词之间的距离以s为单位 上述顺序中的相邻单词(wi和wi + 1)是 不大于3,那么我们说f在s中是紧致的。 •如果评论数据库中的m个句子中出现f,并且 它在m个句子中至少有2个是紧凑的,那么我们
我想知道如何实现修剪阶段以及如何计算句子中单词之间的距离。我还想知道像我一样考虑项目集中的名词短语吗?