我正在将一个以逗号分隔的文件导入dataprep,加载到BigQuery中,不幸的是,其中一个列中有一个逗号,我似乎无法在将文件拆分成列之前将其删除。我已经将原始格式的数据导入dataprep,但仍然无法使其工作。
答案 0 :(得分:0)
在将csv文件加载到Dataprep之前,有一种可能性。如果您在Google表格中有这样的文件:
并将其另存为csv文件,包含逗号的字段用双引号括起来:
a,b,c,d
12,quick,test,"field with, comma"
23,just,testing,"includes, comma"
4,dummy,data,"this, field"
这在Dataprep中可以正常使用。您可以使用您喜欢的语言以编程方式逃避这些字段。如果你仍然想在Dataprep中这样做,那就改为使用这样的csv:
a,b,c,d
12,quick,test,field with, comma
23,just,testing,includes, comma
4,dummy,data,this, field
您可以导入数据集,取消选择Autodetect Structure选项(原始格式,就像您已经做过的那样)。当你将它变成一个新的流程时,你会在右侧看到导入步骤。在这种情况下,单击第二步上的铅笔图标进行编辑:
并选择要将该函数应用于哪些列:
在这种情况下,我将匹配数减少到3,但根据用例可以使用忽略大小写。输出是: