应用错误收集

我通过dask将一个较大的csv文件（约20GB）转换为镶木地板格式

import dask.dataframe as dd
ddf = dd.read_csv('/storage/news_data/train_data.csv', dtype={'type': 'str'})
ddf.to_parquet('/storage/data/train/parquet')

当我尝试读回它时，出现以下错误：

ValueError: Schema in /storage/data/train/parquet/part.42.parquet was different. 
type: null
content: string
title: string

vs

type: string
content: string
title: string

我尝试dropna()，但文件太大，无法处理。

有什么办法可以避免这种情况？

谢谢。

实木复合地板文件中的python模式不同

0 个答案: