是否可以在分块数据上使用DictVectorizer?

时间:2016-10-18 04:18:23

标签: python pandas

我正在尝试使用python pandas csv reader导入分块数据,以克服内存错误,并使用DicVectorizer将字符串转换为float dtypes。但我可以看到两个不同的字符串在转换后具有相同的代码。我们是否有替代/选项来对分块数据进行数据类型转换?

1 个答案:

答案 0 :(得分:2)

在Pandas 0.19中,您可以在read_csv中将列声明为Categorial。请参阅documentaion

因此,作为doc的示例,您可以在csv中键入名为col1的列,并减少内存占用:

pd.read_csv(StringIO(data), dtype={'col1': 'category'})