在某些情况下,我会收到来自第三方的多个CSV(很难使它们更改格式),并且这些CSV应该具有相同的列,但有时会缺少一个或多个列。如果我使用CDAP文件(作为文本读取),然后使用牧马人来通过以下指令处理牧马人CSV:
parse-as-csv :body '\\t' true
cleanse-column-names
它将假定所有读取的文件具有相同的列格式,并且将弄乱具有比第一个文件更少或更多列的文件的数据。
到目前为止,我尝试通过使用此伪指令配置的Wrangler使用File读取blob并以字节形式输出输出:
set-type :body string
parse-as-csv :body '\t' true
cleanse-column-names
但是现在我什至没有任何输出(或错误),所以我不知道如何解析那些非统一文件。 CDAP是否能够处理这种情况?如果是,怎么办?
答案 0 :(得分:1)
您可以使用指令set-column将新列添加到没有所有所需列的文件中。总的来说,我建议您研究所有directives documentation来预处理文件。
我希望能帮上忙。