我在堆栈溢出时发现了similar question。这种方法仅适用于几列,但是我意识到这种方法对于包含大量列的csv是不可能的。
我有一个75列的csv。我决定关注this approach(与上述链接相同)。按照要求在那个问题上做。我添加了UpdateRecord
处理器,并添加了CSVReader
和CSVWriter
。然后,如所告知,我输入了SchemaText
。 这很长,因为它需要我定义整个70列。然后告诉CSVRecordSetWriter
是invalid
。
在实现了一定数量的列定义后,我意识到它变成了invalid
。
部分架构如下:
{
"type":"record",
"name":"test2.csv",
"namespace":"my.namespace",
"fields":[
{
"name":"download",
"type":"string"
},
{
"name":"upload",
"type":"string"
}
.
.
.
.
{
"name":"operatorId",
"type":"string"
},
{
"name":"errorCode",
"type":"string"
}
]
}
我的csv也包含标头。
目标:
我需要将errorCode
列中的数据映射到名为errorMean
的新列。希望您能提出一种我可以实现的方法。随意给出一个解决方案,甚至可以完全跳过写下Schema Text
的过程。