我从Twitter提取了与#TrumpCaved相关的推文! 在我的推文中,我想从所有推文中删除表情符号,url和所有其他特殊字符。其中一条推文如下:
@mitchellvii @AnnCoulter嗨,大家好#MAGA的人,你怎么样 今天在看@realDonaldTrump洞穴吗? …HTTP内容[如果我 使用http链接我无法发布]
我尝试使用以下代码,但对我而言不起作用。
在我的场景中,我尝试成功删除URL,并在使用下一个代码删除表情符号后将其删除,但现在添加了URL。有人可以帮我从文本中删除所有不需要的字符,尤其是URL和表情符号吗?
首先,我尝试使用gsub函数删除http
Corpus = gsub("https.*","", tweets_text$Tweets)
O/p : @mitchellvii @AnnCoulter Hey all you #MAGA people, how did you like watching @realDonaldTrump cave today? <U+0001F602><U+0001F923><U+0001F602><U+0001F923>…
接下来,我尝试使用gsub函数删除表情符号
Corpus = gsub("[^[:alnum:]///' ]","", tweets_text$Tweets)
O/P : mitchellvii AnnCoulter Hey all you MAGA people how did you like watching realDonaldTrump cave today https//tco/vmUCJvTnEO