修复csv文件中的数据

时间:2010-09-12 13:40:27

标签: sqlite csv

我有一个巨大的csv文件,用逗号分隔,我想用R中的glm进行分析 在一列中存在隐含逗号的数据,例如:bla,blabla 使用read.csv.sql读取R中的文件时会出现错误消息:   RS-DBI驱动程序:(RS_sqlite_import:./ gep.csv第47612行预计有37列数据但是找到38列) 这是由于某些数据中的“额外”逗号,而不是整列都有一个额外的列。 我怎样才能解决这个问题?我想删除这个多余的多余逗号。 谢谢你的反应, 安德烈

2 个答案:

答案 0 :(得分:1)

CSV格式非常简单,可以轻松手动编辑。要在值中包含逗号,必须使用引号括起该值。试试这个:"bla,blabla"。如果该数据恰好包含任何引号,例如。 blah,"thequotedblah",blah,这些引号需要使用其他引号进行转义,例如:"blah,""thequotedblah"",blah"

虽然没有官方标准,但CSV格式并不多。维基百科有一个很棒的CSV reference我亲自用来在应用程序中实现CSV支持。花5-10分钟阅读它,你就会知道手动创建/读取/修复CSV数据所需要知道的一切。

答案 1 :(得分:0)

只是这一行包含一个非引用的逗号 - 或者是否有几行?使用可以处理大文件(例如Ultraedit)的编辑器编辑.csv来清理那条记录肯定会有所帮助。 Asaph的引用建议也是一个很好的'un。