我目前正在处理一堆CSV文件并将其转换为Parquet。我将它们与Hive一起使用,并直接查询文件。我想切换到Dask进行数据处理。我正在读取的数据具有可选列,其中一些是布尔类型。我知道Pandas目前不支持可选的bool类型,但是无论如何要指定FastParquet或PyArrow我希望字段是哪种类型?数据在我的DF中为float64是可以的,但由于现有文件已经是一个可选的布尔类型,因此在我的Parquet存储中无法像这样使用它。
答案 0 :(得分:1)
您应该尝试使用fastparquet
引擎和以下关键字参数
object_encoding={'bool_col': 'bool'}
此外,熊猫确实现在允许使用以nans作为扩展类型的布尔列,但这还不是默认值。那应该直接起作用。