删除R中的表情符号和URL

时间:2019-01-27 22:44:04

标签: r

我从Twitter提取了与#TrumpCaved相关的推文! 在我的推文中,我想从所有推文中删除表情符号,url和所有其他特殊字符。其中一条推文如下:

  

@mitchellvii @AnnCoulter嗨,大家好#MAGA的人,你怎么样   今天在看@realDonaldTrump洞穴吗?   …HTTP内容[如果我   使用http链接我无法发布]

我尝试使用以下代码,但对我而言不起作用。

在我的场景中,我尝试成功删除URL,并在使用下一个代码删除表情符号后将其删除,但现在添加了URL。有人可以帮我从文本中删除所有不需要的字符,尤其是URL和表情符号吗?

首先,我尝试使用gsub函数删除http

Corpus = gsub("https.*","",  tweets_text$Tweets)
O/p : @mitchellvii @AnnCoulter Hey all you #MAGA people, how did you like watching @realDonaldTrump cave today? <U+0001F602><U+0001F923><U+0001F602><U+0001F923>… 

接下来,我尝试使用gsub函数删除表情符号

Corpus = gsub("[^[:alnum:]///' ]","", tweets_text$Tweets)
O/P : mitchellvii AnnCoulter Hey all you MAGA people how did you like watching realDonaldTrump cave today  https//tco/vmUCJvTnEO

0 个答案:

没有答案