使用pandas高效地编写Stata文件

时间:2014-10-08 13:10:17

标签: python pandas stata

我使用pandas to_stata将名为SalesData的大型数据框(1800万观察; 5列)导出为Stata本地文件格式:

SalesData.to_stata(sales)

它可以工作,但它在生产中无法使用的速度非常慢。我想我理解为什么:正如对生成的Stata文件的检查所示,每个字符串列都由pandas分配,宽度为244个字符,而不管列的实际内容如何 - > Stata文件不必要地庞大。 Stata上的“压缩”命令在所述文件上将其大小减小了10倍,没有任何数据丢失。

我似乎无法找到to_stata方法的任何选项来控制此行为。

有什么建议吗? 感谢

0 个答案:

没有答案