将NaN浮点数转换为Parquet格式的其他类型

时间:2019-07-25 20:33:38

标签: pandas dask pyarrow fastparquet

我目前正在处理一堆CSV文件并将其转换为Parquet。我将它们与Hive一起使用,并直接查询文件。我想切换到Dask进行数据处理。我正在读取的数据具有可选列,其中一些是布尔类型。我知道Pandas目前不支持可选的bool类型,但是无论如何要指定FastParquet或PyArrow我希望字段是哪种类型?数据在我的DF中为float64是可以的,但由于现有文件已经是一个可选的布尔类型,因此在我的Parquet存储中无法像这样使用它。

1 个答案:

答案 0 :(得分:1)

您应该尝试使用fastparquet引擎和以下关键字参数

object_encoding={'bool_col': 'bool'}

此外,熊猫确实现在允许使用以nans作为扩展类型的布尔列,但这还不是默认值。那应该直接起作用。