Question

我正在收集推特的主题标签。每条推文都可以包含主题标签。

Ma结果：

tests <- c("xxxxxx #SaveTheDate xxxxxx #Histoire] xxxxxx #Femmes xxxxxxx #ports",
       "xxxxxxxxxxxx",
       "xxxx #rock xxxxxx #Nantes" ,
       "xxxxxx #lvan xxxxxxx #nantes xxxxx #ilsepassetoujoursuntruc")


library (stringr)

hashtags <- str_extract_all(tests, "#\\S+")

str (hashtags)

我的期望：一个带有一行标签的data.frame

 str(hashtags)  
 list of 4
 $ : chr [1:4] "#SaveTheDate" "#Histoire]" "#Femmes" "#ports"  
 $ : chr(0)  
 $ : chr [1:2] "#rock" "#Nantes"  
 $ : chr [1:3] "#lvan" "#nantes" "#ilsepassetoujoursuntruc"

我尝试了什么：

 "#SaveTheDate" 
 "#Histoire"
 "#Femmes" 
  "#ports"
  NA
  ....

Answer 1

hashtags[!lengths(hashtags)] <- NA

这将使用NA替换长度为零的列表。（通过Dirty Sock Sniffer更好地解决这个问题）

hashtags <- unlist(hashtags)

将为您提供值的列向量。如果您想要数据框，可以立即使用as.data.frame。

hashtags_df <- as.data.frame(hashtags)

我不知道提取主题标签等的最佳方式，但这应该回答当前提出的问题。

用R分割data.frame对象中的主题标签

1 个答案: