使用镶木地板在R和Python之间传输数据-数字与整数问题

时间:2019-07-11 12:29:42

标签: parquet sparklyr pyarrow

我们正在尝试将parquet用作R和Python之间的通用文件。
1.使用spark_write_parquet

在R中编写Praquet
spark_write_parquet (spark_dataframe, path/to/parq_folder)   

一旦我们使用numeric来读取文件,float64的类型就会转换为int(而不是pyarrow):

dask.dataframe.read_parquet(path/to/parq_folder, engine='pyarrow')
  1. 使用

    pyarrow书写实木复合地板时

    dask.dataframe.to_parquet(path / to / parq_folder,engine ='pyarrow')

使用float64读取文件时,numeric的类型将转换为datetime64[ns](int),并且numeric将会转换为spark_read_parquet

在R和Python之间保留dtype的最佳方法是什么?
read_parquet pyarrow.connect中的schema是否可以解决问题? (找不到架构属性的示例)

0 个答案:

没有答案