我正在尝试使用python pandas csv reader导入分块数据,以克服内存错误,并使用DicVectorizer将字符串转换为float dtypes。但我可以看到两个不同的字符串在转换后具有相同的代码。我们是否有替代/选项来对分块数据进行数据类型转换?
答案 0 :(得分:2)
在Pandas 0.19中,您可以在read_csv中将列声明为Categorial。请参阅documentaion。
因此,作为doc的示例,您可以在csv中键入名为col1
的列,并减少内存占用:
pd.read_csv(StringIO(data), dtype={'col1': 'category'})