Question

我有一个大的（.m +行）.txt文件，我正在读入R。每行都是新闻报道的摘录，该新闻使用的是其原始来源的字符，这会引起问题。有些行将包含所有ASCII字符，而另一些则不行，但确实适合UTF-8编码框架。其他字符（类似于Dingbats）似乎也违反了coding characters的所有编码。

我能够使用Notepad ++清除编码字符，但是每次我尝试将整个数据集读入R时，read或readLines函数只能读取第一个无法解释的字符。

> con <- file(description=filepath, open="r", encoding = "UTF-8")
> news <- readLines(con, n = 100000)
invalid input found on input connection 'en_US/en_US_news.txt' # warning message not error

无效的输入消息似乎只是一个警告，但是R仅读入第一个“难以辨认”的字符。我尝试将news写入.txt文件以查看它停止了什么字符，但是像这样手动清理文件是不现实的。

如何在循环中使用try()或trycatch()来跳过任何字符难以辨认的行？

R-读取大文件时如何处理“在输入连接上发现无效输入”警告？

0 个答案: