我有一个文件,其数据如下所示
“ MK-IND”,“ MK-CO”,“ MK-CATG”,“ MK-PNB”-列名 | M |,| 6M |,| 01.05 |,| 23 | -列的值(记录1 /行1) | N |,| 6N |,| 02.05 |,| 26 | -列的值(记录2 /行2)
我想通过删除所有定界符(“”,||和逗号)以流式传输此文件并将其沉入avro格式的hdfs位置。
但是很遗憾,我无法实现这一目标,有人可以对此提出建议。
stream create --name test --definition“ file --dir = --outputType = text / plain | hdfs-dataset --fsUri =” --deploy
当我给出此命令时,它将所有有效载荷都当作字符串,但是我需要它来按记录或逐行处理有效载荷记录,而没有任何定界符。 我正在使用hdfs-dataset,因为其默认格式为avro。