Question

我正在尝试使用python pandas csv reader导入分块数据，以克服内存错误，并使用DicVectorizer将字符串转换为float dtypes。但我可以看到两个不同的字符串在转换后具有相同的代码。我们是否有替代/选项来对分块数据进行数据类型转换？

Answer 1

在Pandas 0.19中，您可以在read_csv中将列声明为Categorial。请参阅documentaion。

因此，作为doc的示例，您可以在csv中键入名为col1的列，并减少内存占用：

pd.read_csv(StringIO(data), dtype={'col1': 'category'})