我正在处理具有大数据集的数据分析项目。以前,我一直使用运行段(F9)来运行我的所有代码,这使快速尝试各种操作和快速调试变得容易。
该项目的规模越来越大,因此我将代码的功能和部分分成了从main.py调用的不同模块,以便在分析不同疾病并对不同疾病进行相同分析时重用这些函数。
开发人员如何有效地对大型项目进行故障排除?例如,以前如果我过滤了一个熊猫数据框并得到了与预期不同的结果,我将只是更改过滤条件并重新运行该单行代码。现在,当我只更改一行代码时,我必须完全重新加载数据并执行所有先前的修改。 如果要更改第二级模块中的功能(例如辅助功能),则必须重新启动内核才能使对该模块的更改生效,这甚至需要更长的时间。
有哪些开发技术可以使我有效地浏览数据并调试代码,而不必反复重新加载/重新处理数据集? Python似乎很难重新加载模块。有效开发多模块代码的预期方式是什么?
谢谢。