NLP-亚马逊评论功能提取

时间:2020-03-26 11:31:52

标签: python machine-learning nlp

我正在研究亚马逊评论数据集。 目的是提取每种产品的正面和负面特征。

例如:对于“该产品的电池寿命长”一句,我想将“电池”一词作为积极的特征来提取。

数据集包含以下字段:

评论者ID -评论者的ID,例如A2SUAM1J3GNN3B

原样-产品的ID,例如0000013714

reviewerName -评论者的姓名

有用的-评论的有用程度,例如2/3

reviewText -评论的文本

总体-产品评级

摘要-评论摘要

unixReviewTime -评论时间(unix时间)

reviewTime -评论的时间(原始)

到目前为止,我将评论分为两个列表:positive_reviews和negative_reviews。

positive_reviews =所有评分> 3的评论 ,negative_reviews =评分为<3

的所有评论

我清理了文本并将其标记化。之后,我提取了形容词后面的名词,希望这些特定的名词成为我想要的特征。 之后,我尝试使用聚类算法(k-means,DBSCAN),希望它会创建一个代表我要提取的特征的组。

结果一点也不好,我希望这里的人可能对此有所想法

1 个答案:

答案 0 :(得分:0)

您可能希望探索主题建模,而不是集群。这可以让您从评论中挑选出一般主题。

Here's a guide