我在github上经历了与此相关的问题/修复。我有15K列,所以我正在寻找更简洁的解决方案。
这是我尝试过的语法:
minifile_df = dd.read_csv(minifile, dtype='category', \
na_filter=False, engine='c')
这给了我
ValueError:样本的大小不足以包含至少一行数据。请增加对
sample
/read_csv
的调用中read_table
中的字节数
如果包含sample=1e9
,我将获得(尽管使用dtype
关键字参数):
TypeError:“ float”对象不能解释为整数
由于列数很多,我不想在程序中声明元数据(建议作为上述链接中的最佳解决方案)。
还有其他方法可以将所有列定义为类别/字符串吗?