如何处理CDAP(数据融合)中具有不同列的CSV?

时间:2020-01-28 07:19:23

标签: google-cloud-data-fusion cdap

在某些情况下,我会收到来自第三方的多个CSV(很难使它们更改格式),并且这些CSV应该具有相同的列,但有时会缺少一个或多个列。如果我使用CDAP文件(作为文本读取),然后使用牧马人来通过以下指令处理牧马人CSV:

parse-as-csv :body '\\t' true
cleanse-column-names 

它将假定所有读取的文件具有相同的列格式,并且将弄乱具有比第一个文件更少或更多列的文件的数据。

到目前为止,我尝试通过使用此伪指令配置的Wrangler使用File读取blob并以字节形式输出输出:

set-type :body string
parse-as-csv :body '\t' true
cleanse-column-names

但是现在我什至没有任何输出(或错误),所以我不知道如何解析那些非统一文件。 CDAP是否能够处理这种情况?如果是,怎么办?

1 个答案:

答案 0 :(得分:1)

您可以使用指令set-column将新列添加到没有所有所需列的文件中。总的来说,我建议您研究所有directives documentation来预处理文件。

我希望能帮上忙。