删除推文/行,如果它包含任何非英语单词

时间:2018-06-10 20:12:24

标签: r row words tweets non-english

如果它包含任何非英语单词,我想从数据框中删除整个推文或行。 我的数据框架看起来像

     text
1  | morning why didnt i go to sleep earlier oh well im seEING DNP TODAY!!  
     JIP UHH <f0><U+009F><U+0092><U+0096><f0><U+009F><U+0092><U+0096>

2  | @natefrancis00 @SimplyAJ10 <f0><U+009F><U+0098><U+0086><f0><U+009F 
     <U+0086> if only Alan had a Twitter hahaha

3  | @pchirsch23 @The_0nceler @livetennis Whoa whoa let’s not take this too 
     far now
4  | @pchirsch23 @The_0nceler @livetennis Well Pat that’s just not true
5  | One word #Shame on you! #Ji allowing looters to become president

预期的数据框应该是这样的:

 text
3  | @pchirsch23 @The_0nceler @livetennis Whoa whoa let’s not take this too 
     far now
4  | @pchirsch23 @The_0nceler @livetennis Well Pat that’s just not true
5  | One word #Shame on you! #Ji allowing looters to become president.

1 个答案:

答案 0 :(得分:0)

您希望保留字母数字字符以及一些标点符号,例如 @ 等。
如果您的列主要包含df,则应执行以下操作:

对于textgrep的数据框,使用new_str <- grep(df_str$text, pattern = "<*>", value= TRUE , invert = TRUE ) new_str[new_str != ""]

text

将其重新放回原始列NA。你可以使用你需要的索引并将其他索引放到idx <- grep(df$text, pattern = "<*>", invert = TRUE ) df$text[-idx] <- NA

gsub

要清除推文,您可以使用libmagic功能。请参阅此帖cleaning tweet in R