R导入标头上缺少逗号的csv

时间:2014-02-19 07:19:26

标签: r csv

在R中,我导入的csv文件在标题行的末尾缺少逗号。我每天都下载新文件,所以我想弄清楚如何解决R中的问题,而不是每次都编辑文件。这是一个例子。

head1,head2,head3"dat1","dat2","123","dat1b","dat2b","456"

文件似乎在所有数据周围都有引号,而不仅仅是字符串。我使用的导入方法是:

mydata <-read.csv('mycsv.csv', stringsAsFactors=FALSE)

可能我可以找到第一个引号并在其前插入一个逗号。

提前致谢

2 个答案:

答案 0 :(得分:7)

这可能不是最优雅的解决方案,但它可能就足够了。

首先,阅读整行,而不是试图直接解释为csv。我在第一个代码块中使用textConnection的位置,您可以提供文件路径或网址,例如readLines('/path/to/my/strange.csv')

tmp <- readLines(textConnection('head1,head2,head3"dat1","dat2","123"
"dat3","dat4","456"
"dat5","dat6","789"
"dat7","dat8","012"
"dat9","dat10","345"
"dat11","dat12","678"'))

然后对第一行进行一些操作:

h <- sub('\".*', '', tmp[1]) # extracts the headers from the first line
row1 <- sub('[^\"]*(.*)', '\\1', tmp[1]) # extracts the first row's data
tmp <- c(row1, tmp[-1]) # combines the first row's data with subsequent rows' data

现在解释为csv:

dat <- read.csv(textConnection(tmp), header=FALSE) # read tmp in as a csv
names(dat) <- strsplit(h, ',')[[1]] # add headers

dat

  head1 head2 head3
1  dat1  dat2   123
2  dat3  dat4   456
3  dat5  dat6   789
4  dat7  dat8    12
5  dat9 dat10   345
6 dat11 dat12   678

答案 1 :(得分:0)

你可以尝试

data=scan(file.choose(),"")