我有一个大的(.m +行).txt文件,我正在读入R。每行都是新闻报道的摘录,该新闻使用的是其原始来源的字符,这会引起问题。有些行将包含所有ASCII字符,而另一些则不行,但确实适合UTF-8编码框架。其他字符(类似于Dingbats)似乎也违反了coding characters的所有编码。
我能够使用Notepad ++清除编码字符,但是每次我尝试将整个数据集读入R时,read或readLines函数只能读取第一个无法解释的字符。
> con <- file(description=filepath, open="r", encoding = "UTF-8")
> news <- readLines(con, n = 100000)
invalid input found on input connection 'en_US/en_US_news.txt' # warning message not error
无效的输入消息似乎只是一个警告,但是R仅读入第一个“难以辨认”的字符。我尝试将news
写入.txt文件以查看它停止了什么字符,但是像这样手动清理文件是不现实的。
如何在循环中使用try()
或trycatch()
来跳过任何字符难以辨认的行?