正确调试dask.dataframe.to_parquet的原因

时间:2017-10-24 07:52:30

标签: dask fastparquet

我看到运行to_parquet函数时列对象的类型存在一些问题。我正在运行dask 15.1版。

我已使用astype(object)显式转换了我的列,这对某些列提供了帮助但并非全部 我收到以下错误 - TypeError: bad argument type for built-in operation 添加object_encoding='utf-8参数后,我收到以下错误 - TypeError: expected list of bytes

调试此问题的最佳方法是什么?
BTW-我的数据集有希伯来字符。

THX

1 个答案:

答案 0 :(得分:0)

正确的拼写是object_encoding='utf8'

请注意,对象编码通常是按列设置,因此您可以使用object_encoding={'a': 'utf8', 'b': 'bytes'}。特殊值'infer'尝试猜测给定对象列的正确编码,但这样做并不总是成功;这可能是你看到的第一个错误的原因。