Question

我正在使用 fread 功能导入＆＃34; .dat＆＃34;文件[文件大小3.5 GB]。该文件的问题是一些字段嵌入了分隔符[我知道因为同一个文件正用于通过SSIS ETL工具加载]。

data <- fread("xyz.dat", sep = '|', encoding = "UTF-8",showProgress = T, select = ord_shp_col, fill = TRUE, sep2 = "|")

根据R文档尝试处理sep2参数，甚至尝试只使用有限列，以便可以跳过这些列。但是，再次以相同的错误结束n。

在fread中读取1712440 rowsError的0.0％（＆＃34; xyz.dat＆＃34;，sep =＆＃34; |＆＃34;，编码 =＆＃34; UTF-8＆＃34;，：期望118列，但行2143包含处理所有列后的文本。再次尝试使用fill = TRUE。另一个原因可能是在区分一个或多个具有的领域时，这是一种愚蠢的逻辑 embedded sep =＆＃39; |＆＃39;和/或（未转义）＆＃39; \ n＆＃39;不平衡的人物未转义的报价失败了。如果引用=＆＃39;＆＃39;没有帮助，请提交问题是要弄清楚逻辑是否可以改进。

非常感谢任何帮助。

如何使用R中的fread在一个或多个字段中处理嵌入式分隔符？

0 个答案: