我有一个大的CSV文件(170k行),我将其导入R.文件中的每个条目都以逗号分隔 - 但是,在某些列中(特别是那些粘贴在一起的URL集合) ,字符串中有逗号。以下示例:
Will Smith,25/09/68,null,male,08/10/14,450109,TRUE,http://commons.wikimedia.org/wiki/Special:FilePath/Will_Smith_2011,_2.jpg?width=300http://upload.wikimedia.org/wikipedia/commons/thumb/5/51/Will_Smith_2011,_2.jpg/200px-Will_Smith_2011,_2.jpghttp:.....
添加的逗号具有连锁效果 - 它使R(和Excel)认为它是一个单独的列,然后扩展到其他列并破坏格式。鉴于大约有大约10%的数据受到影响,是否可以快速解决这个问题?
答案 0 :(得分:0)
没有一些规则可以忽略逗号,不。
如果你有一些一致的规则,那么使用str_replace_all
和正则表达式来查找异常。
如果你是制作csv的人,我建议你用不同的角色划分界限。
答案 1 :(得分:0)
如果此有限示例建议的规则是删除下划线之前出现的逗号,则此操作会成功:
gsub("[,][_]", "_", s)