将Parquet转换为常规TXT文件的最快方法是什么?

时间:2019-03-05 11:33:58

标签: javascript python module parquet

我一直在考虑将实木复合地板文件格式真正快速地转换为TXT。

尝试过parquet-tools cat parque_file > parque_file.txt 但是5KB文件需要2秒钟以上的时间。

我认为此工具会产生开销。什么是更快的方法?

(如果可能的话,在500ms以下的解决方案中寻找)。

1 个答案:

答案 0 :(得分:1)

您可以尝试将Python与pandas和pyarrow结合使用:

import pandas as pd
df = pd.read_parquet('input.parquet')
df.to_csv('out.csv', index=False)             # Exporting to CSV is easy
df.to_csv('out.txt', index=False, sep=' ')    # Text is just a tad more difficult
df.to_csv('out.txt', index=False, sep='\t')   # Alternatively, you can use tab separators
df.to_json('out.json')                        # Exporting to JSON is easy as well

请参阅相关的API文档:

您还可以更改上面的代码,以使用fastparquet代替pyarrow,并测试它是否会带来更好或更低的性能。您需要修改的是读取镶木地板文件的行:

df = pd.read_parquet('input.parquet', engine = 'fastparquet')

请不要忘记通过发出pip install pandas pyarrow fastparquet(或类似方法,具体取决于软件包管理解决方案)来安装大熊猫,pyarrow和fastparquet。