R-读取大文件时如何处理“在输入连接上发现无效输入”警告?

时间:2018-08-20 00:56:49

标签: r regex text special-characters

我有一个大的(.m +行).txt文件,我正在读入R。每行都是新闻报道的摘录,该新闻使用的是其原始来源的字符,这会引起问题。有些行将包含所有ASCII字符,而另一些则不行,但确实适合UTF-8编码框架。其他字符(类似于Dingbats)似乎也违反了coding characters的所有编码。

我能够使用Notepad ++清除编码字符,但是每次我尝试将整个数据集读入R时,read或readLines函数只能读取第一个无法解释的字符。

> con <- file(description=filepath, open="r", encoding = "UTF-8")
> news <- readLines(con, n = 100000)
invalid input found on input connection 'en_US/en_US_news.txt' # warning message not error

无效的输入消息似乎只是一个警告,但是R仅读入第一个“难以辨认”的字符。我尝试将news写入.txt文件以查看它停止了什么字符,但是像这样手动清理文件是不现实的。

如何在循环中使用try()trycatch()来跳过任何字符难以辨认的行?

0 个答案:

没有答案