如何完美清理文本文件

时间:2018-06-20 11:27:08

标签: r tm

我已经使用R从一些推文制作了条形图,但无法清除这些推文。我已经尝试了多次,但是无法删除这些标签<U+2060>, <U+2764> .....和某些其他停用词。

我收到的未格式化文本和常用术语列表中的\u23f1, 攼㹤愼㸰戼㹣攼㹤戼㸷戼㸵攼㹤愼㸰戼㹣攼㹤戼㸷戼㸹, \u2066cristiano\u2069之类的东西,我想删除这些东西。

enter image description here

这是我要清理的数据:

myCorpus <- tm_map(myCorpus, tolower)
myCorpus <- tm_map(myCorpus, PlainTextDocument)
myCorpus <- tm_map(myCorpus, removePunctuation)
myCorpus <- tm_map(myCorpus, removeNumbers)
myCorpus <- tm_map(myCorpus, stemDocument)

0 个答案:

没有答案