带有逗号和引号的大型CSV作为分隔符和开放式引用 - 我应该如何在R中导入它?

时间:2018-04-10 12:19:33

标签: r import read.csv

我的数据大约有260万行,引号和逗号都是分隔符。 但有时候会有一个带变量的逗号,我不想将其视为分隔符。

另外,我认为某处有一个开放的引用,所以当我只是阅读.cv时,我只得到130万次观察。但当我使用quote =""时,我得到了所需的观察次数,但是列数增加了,因为地址变量最终会被逗号分割。

1 个答案:

答案 0 :(得分:0)

听起来你需要找到并修复你的公开报价。我建议你阅读每一行并计算每一行"的数量。如果确实存在公开引用,则应在某些特定行中找到奇数引号

library(stringr)
fileName="read.csv"
con=file(fileName,open="r")
count = 1
while(length(line <- readLines(con, 1)) > 0) {
    s = str_count(line, '"')  # Count number of " in the line
    if (s %% 2 != 0) { # If there is an odd number, means there is an open "
        print(paste("Row", count, "has", s, 'occurrence of "'))
    }
    count = count + 1
}