标签: python performance pandas
我在1gig + csv文件(可能很多)中运行了几个嵌套函数的Pandas数据争用。我尝试了各种代码优化技术,但我对性能仍不满意。我意识到Cython等可能有一些优化,我没有探索过。在我进一步复杂的代码优化之前,我想了解一些最自然的后续步骤,抛出更多的comp。解决问题的力量。
您建议先尝试哪种技巧?据我所知,Spark路线需要将许多Pandas操作重写为Spark帧。我也读过关于Dask的内容。任何建议,优点/缺点都是值得欢迎的。