我的数据大约有260万行,引号和逗号都是分隔符。 但有时候会有一个带变量的逗号,我不想将其视为分隔符。
另外,我认为某处有一个开放的引用,所以当我只是阅读.cv时,我只得到130万次观察。但当我使用quote =""时,我得到了所需的观察次数,但是列数增加了,因为地址变量最终会被逗号分割。
答案 0 :(得分:0)
听起来你需要找到并修复你的公开报价。我建议你阅读每一行并计算每一行"
的数量。如果确实存在公开引用,则应在某些特定行中找到奇数引号
library(stringr)
fileName="read.csv"
con=file(fileName,open="r")
count = 1
while(length(line <- readLines(con, 1)) > 0) {
s = str_count(line, '"') # Count number of " in the line
if (s %% 2 != 0) { # If there is an odd number, means there is an open "
print(paste("Row", count, "has", s, 'occurrence of "'))
}
count = count + 1
}