无法在数据准备中的列中转义逗号值

时间:2018-03-16 20:42:34

标签: google-bigquery google-cloud-dataprep

我正在将一个以逗号分隔的文件导入dataprep,加载到BigQuery中,不幸的是,其中一个列中有一个逗号,我似乎无法在将文件拆分成列之前将其删除。我已经将原始格式的数据导入dataprep,但仍然无法使其工作。

1 个答案:

答案 0 :(得分:0)

在将csv文件加载到Dataprep之前,有一种可能性。如果您在Google表格中有这样的文件:

enter image description here

并将其另存为csv文件,包含逗号的字段用双引号括起来:

a,b,c,d
12,quick,test,"field with, comma"
23,just,testing,"includes, comma"
4,dummy,data,"this, field"

这在Dataprep中可以正常使用。您可以使用您喜欢的语言以编程方式逃避这些字段。如果你仍然想在Dataprep中这样做,那就改为使用这样的csv:

a,b,c,d
12,quick,test,field with, comma
23,just,testing,includes, comma
4,dummy,data,this, field

您可以导入数据集,取消选择Autodetect Structure选项(原始格式,就像您已经做过的那样)。当你将它变成一个新的流程时,你会在右侧看到导入步骤。在这种情况下,单击第二步上的铅笔图标进行编辑:

enter image description here

并选择要将该函数应用于哪些列:

enter image description here

在这种情况下,我将匹配数减少到3,但根据用例可以使用忽略大小写。输出是:

enter image description here