我们正在尝试将parquet
用作R和Python之间的通用文件。
1.使用spark_write_parquet
用
spark_write_parquet (spark_dataframe, path/to/parq_folder)
一旦我们使用numeric
来读取文件,float64
的类型就会转换为int
(而不是pyarrow
):
dask.dataframe.read_parquet(path/to/parq_folder, engine='pyarrow')
使用
与pyarrow
书写实木复合地板时
dask.dataframe.to_parquet(path / to / parq_folder,engine ='pyarrow')
使用float64
读取文件时,numeric
的类型将转换为datetime64[ns]
(int),并且numeric
将会转换为spark_read_parquet
。
在R和Python之间保留dtype的最佳方法是什么?
read_parquet pyarrow.connect中的schema
是否可以解决问题? (找不到架构属性的示例)