在数据框中选择或提取带有#的单词

时间:2017-10-22 10:41:08

标签: r hashtag

我最近开始用R分析数据,所以我远离好:

我收集了Instagram上的帖子,一个变量(行)给了我"标题"每个帖子。此标题是描述和分配的主题标签的组合。

我只对标签感兴趣,并希望仅使用主题标签选择,提取或创建新变量。 我不熟悉分析字符变量,所以欢迎任何帮助!

1 个答案:

答案 0 :(得分:-1)

使用虚拟数据在黑暗中拍摄

# Dummy data
data <- data.frame(title = c("#foo #bar",
                             "#qwerty #dvorak",
                             "#R>python"))
data$title <- as.character(data$title)
data
            title
1       #foo #bar
2 #qwerty #dvorak
3       #R>python

# Extract hashtags
grep("#", unlist(strsplit(data$title, " ")), value = TRUE)
[1] "#foo"      "#bar"      "#qwerty"   "#dvorak"   "#R>python"