我通过dask将一个较大的csv文件(约20GB)转换为镶木地板格式
import dask.dataframe as dd
ddf = dd.read_csv('/storage/news_data/train_data.csv', dtype={'type': 'str'})
ddf.to_parquet('/storage/data/train/parquet')
当我尝试读回它时,出现以下错误:
ValueError: Schema in /storage/data/train/parquet/part.42.parquet was different.
type: null
content: string
title: string
vs
type: string
content: string
title: string
我尝试dropna()
,但文件太大,无法处理。
有什么办法可以避免这种情况?
谢谢。