我使用pandas to_stata将名为SalesData的大型数据框(1800万观察; 5列)导出为Stata本地文件格式:
SalesData.to_stata(sales)
它可以工作,但它在生产中无法使用的速度非常慢。我想我理解为什么:正如对生成的Stata文件的检查所示,每个字符串列都由pandas分配,宽度为244个字符,而不管列的实际内容如何 - > Stata文件不必要地庞大。 Stata上的“压缩”命令在所述文件上将其大小减小了10倍,没有任何数据丢失。
我似乎无法找到to_stata方法的任何选项来控制此行为。
有什么建议吗? 感谢