将CSV导入R时出现迷路逗号

时间:2014-11-05 18:42:30

标签: r

我有一个大的CSV文件(170k行),我将其导入R.文件中的每个条目都以逗号分隔 - 但是,在某些列中(特别是那些粘贴在一起的URL集合) ,字符串中有逗号。以下示例:

Will Smith,25/09/68,null,male,08/10/14,450109,TRUE,http://commons.wikimedia.org/wiki/Special:FilePath/Will_Smith_2011,_2.jpg?width=300http://upload.wikimedia.org/wikipedia/commons/thumb/5/51/Will_Smith_2011,_2.jpg/200px-Will_Smith_2011,_2.jpghttp:.....

添加的逗号具有连锁效果 - 它使R(和Excel)认为它是一个单独的列,然后扩展到其他列并破坏格式。鉴于大约有大约10%的数据受到影响,是否可以快速解决这个问题?

2 个答案:

答案 0 :(得分:0)

没有一些规则可以忽略逗号,不。

如果你有一些一致的规则,那么使用str_replace_all和正则表达式来查找异常。

如果你是制作csv的人,我建议你用不同的角色划分界限。

答案 1 :(得分:0)

如果此有限示例建议的规则是删除下划线之前出现的逗号,则此操作会成功:

gsub("[,][_]", "_", s)