如何使用R中的fread在一个或多个字段中处理嵌入式分隔符?

时间:2018-03-28 13:58:42

标签: r data.table fread

我正在使用 fread 功能导入" .dat"文件[文件大小3.5 GB]。该文件的问题是一些字段嵌入了分隔符[我知道因为同一个文件正用于通过SSIS ETL工具加载]。

data <- fread("xyz.dat", sep = '|', encoding = "UTF-8",showProgress = T, select = ord_shp_col, fill = TRUE, sep2 = "|")

根据R文档尝试处理sep2参数,甚至尝试只使用有限列,以便可以跳过这些列。 但是,再次以相同的错误结束n。

  

在fread中读取1712440 rowsError的0.0%(&#34; xyz.dat&#34;,sep =&#34; |&#34;,编码   =&#34; UTF-8&#34;,:期望118列,但行2143包含处理所有列后的文本。再次尝试使用fill = TRUE。另一个原因可能是   在区分一个或多个具有的领域时,这是一种愚蠢的逻辑   embedded sep =&#39; |&#39;和/或(未转义)&#39; \ n&#39;不平衡的人物   未转义的报价失败了。如果引用=&#39;&#39;没有帮助,请提交   问题是要弄清楚逻辑是否可以改进。

非常感谢任何帮助。

0 个答案:

没有答案