实木复合地板文件中的python模式不同

时间:2019-02-22 15:42:54

标签: python-3.x parquet dask

我通过dask将一个较大的csv文件(约20GB)转换为镶木地板格式

import dask.dataframe as dd
ddf = dd.read_csv('/storage/news_data/train_data.csv', dtype={'type': 'str'})
ddf.to_parquet('/storage/data/train/parquet')

当我尝试读回它时,出现以下错误:

ValueError: Schema in /storage/data/train/parquet/part.42.parquet was different. 
type: null
content: string
title: string

vs

type: string
content: string
title: string

我尝试dropna(),但文件太大,无法处理。

有什么办法可以避免这种情况?

谢谢。

0 个答案:

没有答案