如何检查readtext是否无法读取文件的一部分

时间:2018-04-15 17:10:13

标签: r encoding nlp quanteda read-text

我正在阅读带有readtext()的文本文件 它似乎是用utf-8编码的(根据记事本++,无法验证);
我不确定它是否编码正确或是否有错误/腐败 根据Windows资源管理器,磁盘上的文件大小为200+ Mb 当我读它并检查它在RAM中的大小

format(object.size(my_rt), units = "MiB"))

我得到了

[1] 15 MiB # I manually removed some irrilevant info  

readtext()在使用

读取时不会出现任何错误或警告
my_rt <- readtext(nomeFile, docvarsfrom = "filenames"
    ,docvarnames = c("lng","country","type","b","c","d")
                   ,dvsep = "[_.]", encoding = "UTF-8"
                   , verbosity = 3)

我几乎可以确定整个文件没有被完全读取,因为稍大的文件占用RAM 198.2 Mib而较小的文件占用157 MiB。

有没有办法了解readtext出了什么问题?在哪里? 我是否应该将此作为readtext的问题报告,尽管不知道问题是什么?

0 个答案:

没有答案