如何从本地文件系统(例如python,某些库等)将Parquet转换为CSV,但是没有Spark? (试图找到尽可能简单和极简的解决方案,因为需要使所有内容自动化并且没有太多资源)。
我尝试过在我的Mac上为parquet-tools
,但数据输出看起来不正确。
需要进行输出,以便当某些列中不存在数据时-CSV将具有对应的NULL(2个逗号之间的空列)。
谢谢。
答案 0 :(得分:7)
您可以使用Python软件包variable userinput varchar2(20);
execute :userinput := 'Max';
select review_id, review_name, review_reviewers,
regexp_substr(review_reviewers, '(^|:)(' || :userinput || '\s.+?)(:|$)', 1, 1, null, 2)
from review
where regexp_like(review_reviewers, '(^|:)' || :userinput || '\s');
和pandas
(pyarrow
是此功能所需的pyarrow
的可选依赖项)来实现。
pandas
当您需要修改文件中的内容时,可以对import pandas as pd
df = pd.read_parquet('filename.parquet')
df.to_csv('filename.csv')
进行标准的pandas
操作。