我有一个巨大的csv文件,用逗号分隔,我想用R中的glm进行分析 在一列中存在隐含逗号的数据,例如:bla,blabla 使用read.csv.sql读取R中的文件时会出现错误消息: RS-DBI驱动程序:(RS_sqlite_import:./ gep.csv第47612行预计有37列数据但是找到38列) 这是由于某些数据中的“额外”逗号,而不是整列都有一个额外的列。 我怎样才能解决这个问题?我想删除这个多余的多余逗号。 谢谢你的反应, 安德烈
答案 0 :(得分:1)
CSV格式非常简单,可以轻松手动编辑。要在值中包含逗号,必须使用引号括起该值。试试这个:"bla,blabla"
。如果该数据恰好包含任何引号,例如。 blah,"thequotedblah",blah
,这些引号需要使用其他引号进行转义,例如:"blah,""thequotedblah"",blah"
。
虽然没有官方标准,但CSV格式并不多。维基百科有一个很棒的CSV reference我亲自用来在应用程序中实现CSV支持。花5-10分钟阅读它,你就会知道手动创建/读取/修复CSV数据所需要知道的一切。
答案 1 :(得分:0)
只是这一行包含一个非引用的逗号 - 或者是否有几行?使用可以处理大文件(例如Ultraedit)的编辑器编辑.csv来清理那条记录肯定会有所帮助。 Asaph的引用建议也是一个很好的'un。