我一直在考虑将实木复合地板文件格式真正快速地转换为TXT。
尝试过parquet-tools cat parque_file > parque_file.txt
但是5KB文件需要2秒钟以上的时间。
我认为此工具会产生开销。什么是更快的方法?
(如果可能的话,在500ms以下的解决方案中寻找)。
答案 0 :(得分:1)
您可以尝试将Python与pandas和pyarrow结合使用:
import pandas as pd
df = pd.read_parquet('input.parquet')
df.to_csv('out.csv', index=False) # Exporting to CSV is easy
df.to_csv('out.txt', index=False, sep=' ') # Text is just a tad more difficult
df.to_csv('out.txt', index=False, sep='\t') # Alternatively, you can use tab separators
df.to_json('out.json') # Exporting to JSON is easy as well
请参阅相关的API文档:
您还可以更改上面的代码,以使用fastparquet代替pyarrow,并测试它是否会带来更好或更低的性能。您需要修改的是读取镶木地板文件的行:
df = pd.read_parquet('input.parquet', engine = 'fastparquet')
请不要忘记通过发出pip install pandas pyarrow fastparquet
(或类似方法,具体取决于软件包管理解决方案)来安装大熊猫,pyarrow和fastparquet。