我试图直接编写Parquet文件(在此上下文中,直接表示没有任何中间文件)。
我有一个解决方法,在第一步输出CSV或Avro文件,然后将其转换为Parquet文件,但我想在没有CSV,Avro或任何其他中间文件的情况下编写它。
GitHub - Parquet/parquet-compatibility:上的 CsvWriteSupport
和ConvertUtils
允许我将任何CSV转换为Parquet,但它不支持GROUP
类型。 (来源:parquet-compatibility/CsvWriteSupport.java)
AvroWriteSupport
支持GROUP
类型(来源:parquet-mr/AvroWriteSupport.java),但是我使用它我必须为Avro编写模式文件,将其转换为Avro的类文件并且需要加倍转换的时间(写给Avro和Avro到Parquet)......我觉得它不方便。
所以,我想知道如何直接输出Parquet文件。
有没有办法做到这一点?或者我必须写我原来的WriteSupport
课程?
请告诉我你的想法。感谢。