标签: dask parquet fastparquet
这是原型场景:
categorize()
新的Parquet文件现在占用的磁盘空间是原始文件的几倍!现在,我不是在乎磁盘空间(我有足够的空间),而是在寻求理解:
即使原始文件集的类别不为“已知”,它们仍必须位于文件集的磁盘空间“ 某处”中。如果有的话,如果原始文件集的分类列没有使用字典开头,我可能会期望磁盘使用量减少。
是的,只是想了解。有什么作用?