应用错误收集

我在1gig + csv文件（可能很多）中运行了几个嵌套函数的Pandas数据争用。我尝试了各种代码优化技术，但我对性能仍不满意。我意识到Cython等可能有一些优化，我没有探索过。在我进一步复杂的代码优化之前，我想了解一些最自然的后续步骤，抛出更多的comp。解决问题的力量。

您建议先尝试哪种技巧？据我所知，Spark路线需要将许多Pandas操作重写为Spark帧。我也读过关于Dask的内容。任何建议，优点/缺点都是值得欢迎的。