如何使用Parquet Viewer查看大文件

时间:2019-03-11 13:15:17

标签: parquet hadoop-streaming

enter image description here

尝试打开大小为96MB的大型镶木文件时,出现“内存不足”错误。

enter image description here

是否有任何可配置的选项可以更改JVM参数或任何其他基于流的方法。

我们需要csv文件作为输出。

1 个答案:

答案 0 :(得分:0)

无法告诉您如何使特定的查看器正常工作,但是如果需要CSV输出,则可以尝试将Python与pandas和pyarrow一起使用。以下脚本就足够了:

import pandas as pd
df = pd.read_parquet('input.parquet')
df.to_csv('out.csv', index=False)

请参阅相关的API文档:

请不要忘记通过发出pip install pandas pyarrow(或类似方法,具体取决于您的软件包管理解决方案)来安装熊猫和pyarrow。