有没有办法使用python将文本数据写入带有hadoop-streaming的镶木地板文件。
基本上,我有一个从我的IdentityMapper发出的字符串,我希望将其存储为镶木地板文件。
输入或示例将非常有用
答案 0 :(得分:1)
我怀疑使用内置的Hadoop Streaming没有内置的方法(我无法找到),但是,根据您的数据集,您可以使用第三方软件包
https://github.com/whale2/iow-hadoop-streaming
要从JSON生成Parquet,您的流媒体代码会吐出json,并与AVRO架构一起使用ParquetAsJsonOutputFormat
编写您的Parquet。
请注意,在此阶段,上面的包有一些限制(例如只能使用原始类型等)。
根据您的数据的性质,您也可以使用Kite SDK,如下所述:
https://dwbigdata.wordpress.com/2016/01/31/json-to-parquet-conversion/
在这里:
https://community.cloudera.com/t5/Kite-SDK-includes-Morphlines/JSON-to-Parquet/td-p/20630
干杯