Example of data
我已经创建了一个新的例子,让我更清楚我的意思。因此,奥巴马最近发布了一个包含推文的文件。第一列“数字”是推文的数量,第二列“推文”包含实际的推文,第四列“使用”包含在推文中使用的单词,三个单词和主题标签,但有些人为什么选择它们。所以,我想只选择包含“nottouse”列中任何信息的行,并创建一个只包含那些行的新数据帧。
我试过这个:
used<- as.character(used[1])
newdata<-subset(tweets, grepl(used,tweet))
但我想这不对。
谢谢
答案 0 :(得分:1)
根据您拥有的结构进行猜测:
badwords <- # assign the vector of badwords
df <- # assign your dataframe of tweets
# this converts the badwords into a pattern that grepl would understand
badwords.pattern <- paste(badwords, collapse = "|")
# do subsetting by grepl
df.onlybad <- df[grepl(badwords, df$tweet),]