Question

在某些情况下，我会收到来自第三方的多个CSV（很难使它们更改格式），并且这些CSV应该具有相同的列，但有时会缺少一个或多个列。如果我使用CDAP文件（作为文本读取），然后使用牧马人来通过以下指令处理牧马人CSV：

parse-as-csv :body '\\t' true
cleanse-column-names

它将假定所有读取的文件具有相同的列格式，并且将弄乱具有比第一个文件更少或更多列的文件的数据。

到目前为止，我尝试通过使用此伪指令配置的Wrangler使用File读取blob并以字节形式输出输出：

set-type :body string
parse-as-csv :body '\t' true
cleanse-column-names

但是现在我什至没有任何输出（或错误），所以我不知道如何解析那些非统一文件。 CDAP是否能够处理这种情况？如果是，怎么办？

Answer 1

您可以使用指令set-column将新列添加到没有所有所需列的文件中。总的来说，我建议您研究所有directives documentation来预处理文件。

我希望能帮上忙。