我正在研究亚马逊评论数据集。 目的是提取每种产品的正面和负面特征。
例如:对于“该产品的电池寿命长”一句,我想将“电池”一词作为积极的特征来提取。
数据集包含以下字段:
评论者ID -评论者的ID,例如A2SUAM1J3GNN3B
原样-产品的ID,例如0000013714
reviewerName -评论者的姓名
有用的-评论的有用程度,例如2/3
reviewText -评论的文本
总体-产品评级
摘要-评论摘要
unixReviewTime -评论时间(unix时间)
reviewTime -评论的时间(原始)
到目前为止,我将评论分为两个列表:positive_reviews和negative_reviews。
positive_reviews =所有评分> 3的评论 ,negative_reviews =评分为<3
的所有评论我清理了文本并将其标记化。之后,我提取了形容词后面的名词,希望这些特定的名词成为我想要的特征。 之后,我尝试使用聚类算法(k-means,DBSCAN),希望它会创建一个代表我要提取的特征的组。
结果一点也不好,我希望这里的人可能对此有所想法