应用错误收集

我正在尝试实现Mining and Summarizing Customer Reviews文章中的方面提取方法。我试图通过关联规则挖掘（Apriori算法）查找所有常见特征。首先我应用了预处理功能（POS-Tagging，停用词，PorterStemmer）到类似于文章的句子。然后，我将每个句子中的名词/名词短语提取到交易文件中，并以

的csv格式保存

之后，我将apriori算法应用于此交易文件，并获得了频繁的商品集，如下所示：

在文章中有紧密修剪阶段：

此方法检查功能至少包含两个词，我们称之为特征短语，并删除那些可能毫无意义的内容。在关联挖掘中，该算法未考虑项目（或单词）在交易（或交易）中的位置句子）。但是，在自然语言句子中，单词一起出现并以特定顺序出现的可能性更大成为有意义的短语。因此，一些经常关联挖掘产生的特征短语可能不会是真正的功能。紧凑修剪的想法是修剪那些不出现单词的候选特征一起。我们使用候选单词之间的距离功能词组（itemset）进行修剪。

定义： •令f为常用特征短语，且f包含n 话。假设一个句子s包含f和出现在s中的f中的单词的顺序为：w1，w2， …，wn。如果任何两个词之间的距离以s为单位上述顺序中的相邻单词（wi和wi + 1）是不大于3，那么我们说f在s中是紧致的。 •如果评论数据库中的m个句子中出现f，并且它在m个句子中至少有2个是紧凑的，那么我们

我想知道如何实现修剪阶段以及如何计算句子中单词之间的距离。我还想知道像我一样考虑项目集中的名词短语吗？

从产品在线评论中提取方面

0 个答案: