使用R编程从评论中提取单词

时间:2018-07-31 11:35:35

标签: r

问候!! 我想从游戏网站中提取评论,然后找出人们对游戏的喜欢和不喜欢的地方。 我已经完成了从网页中提取评论并将其存储在数据框中的第一部分。 现在,我的数据框中有“喜欢”和“不喜欢”之类的列。我想在“喜欢”和“不喜欢”列中提取特定单词。

例如: 喜欢

“我喜欢他们的网站,在我看来它看起来很棒,当这种设计吸引我时,我感觉非常好!所以我注册了一个帐户,只花了我几分钟时间,然后我决定在这里进行我的第一笔存款,并尝试用我最喜欢的Microgaming老虎机运气,尽管有时我会损失很多钱,因为他们有不错的欢迎奖金,我通过Skrill存款了25欧元,我收到了25欧元我想说,即使我是第一次在这里玩,这个赌场还是非常不错的。欢迎奖金给我留下了深刻的印象,我会给10,因为下注要求比体面的要好。我没什么好说的,因为他们有很多来自不同提供商的老虎机,所以我给9。我推荐您这个赌场,因为它可以安全玩,有很多游戏和良好的欢迎奖金!”

不喜欢

“我看不到任何聊天选项,这将是唯一一件坏事!”

因此,在类似的评论中,我想要这样的词语:良好的设计,体面的欢迎奖金,安全的比赛。

对于“不喜欢”:没有聊天选项

这可以实现吗?请您帮助我。任何帮助将不胜感激。

感谢和问候,

阿尼

1 个答案:

答案 0 :(得分:1)

这是您可以执行的操作。 您可以选择一系列表达最佳情感的因素(例如“喜欢”,“不喜欢”,“讨厌”,“爱”),并应用以下代码。

z <- data.frame(group = c("liked", "disliked", "liked"),
            comment = c("I love this game", "I hate this game", "I like the game"))

results <- z %>% 
 group_by(group) %>% 
 summarise(positive_feedbacks = length(unique(comment[grepl("love|like", comment)])),
           negative_feedbacks = length(unique(comment[grepl("hate", comment)])))

这样,您可以计算开始时的正反馈和负反馈量。