用R分割data.frame对象中的主题标签

时间:2016-09-07 14:17:03

标签: r twitter hashtag

我正在收集推特的主题标签。每条推文都可以包含主题标签。

T

Ma结果:

tests <- c("xxxxxx #SaveTheDate xxxxxx #Histoire] xxxxxx #Femmes xxxxxxx #ports",
       "xxxxxxxxxxxx",
       "xxxx #rock xxxxxx #Nantes" ,
       "xxxxxx #lvan xxxxxxx #nantes xxxxx #ilsepassetoujoursuntruc")


library (stringr)

hashtags <- str_extract_all(tests, "#\\S+")

str (hashtags)

我的期望:一个带有一行标签的data.frame

 str(hashtags)  
 list of 4
 $ : chr [1:4] "#SaveTheDate" "#Histoire]" "#Femmes" "#ports"  
 $ : chr(0)  
 $ : chr [1:2] "#rock" "#Nantes"  
 $ : chr [1:3] "#lvan" "#nantes" "#ilsepassetoujoursuntruc"  

我尝试了什么:

 "#SaveTheDate" 
 "#Histoire"
 "#Femmes" 
  "#ports"
  NA
  ....

1 个答案:

答案 0 :(得分:3)

hashtags[!lengths(hashtags)] <- NA

这将使用NA替换长度为零的列表。 (通过Dirty Sock Sniffer更好地解决这个问题)

hashtags <- unlist(hashtags)

将为您提供值的列向量。如果您想要数据框,可以立即使用as.data.frame。

hashtags_df <- as.data.frame(hashtags)

我不知道提取主题标签等的最佳方式,但这应该回答当前提出的问题。