我已经使用R从一些推文制作了条形图,但无法清除这些推文。我已经尝试了多次,但是无法删除这些标签<U+2060>, <U+2764> .....
和某些其他停用词。
我收到的未格式化文本和常用术语列表中的\u23f1, 攼㹤愼㸰戼㹣攼㹤戼㸷戼㸵攼㹤愼㸰戼㹣攼㹤戼㸷戼㸹, \u2066cristiano\u2069
之类的东西,我想删除这些东西。
这是我要清理的数据:
myCorpus <- tm_map(myCorpus, tolower)
myCorpus <- tm_map(myCorpus, PlainTextDocument)
myCorpus <- tm_map(myCorpus, removePunctuation)
myCorpus <- tm_map(myCorpus, removeNumbers)
myCorpus <- tm_map(myCorpus, stemDocument)