流式传输JSON数据,在S3中保存为Parquet

时间:2015-08-20 07:07:29

标签: json avro parquet amazon-kinesis

我有一个生成JSON的Kinesis流,并希望使用Storm以Parquet格式写入S3。这种方法需要从JSON转换 - > Avro - >流处理过程中的镶木地板。此外,我需要处理这种方法中的模式演变,并不断更新avro模式和avsc生成的java类。

另一种选择是在S3中直接编写JSON并使用Spark将存储的文件转换为镶木地板。在这种情况下,Spark可以处理模式演变。

我想获得这两种方法的优缺点。另外,还有其他更好的方法可以处理json中的模式演变 - > avro - >镶木地板转换管道吗?

0 个答案:

没有答案