将jupyter笔记本变成python脚本的最佳实践

时间:2015-08-24 13:09:12

标签: python refactoring ipython-notebook readability jupyter

Jupyter(iPython)笔记本当之无愧地被认为是一个很好的工具,用于对代码进行原型设计并以交互方式进行各种机器学习。但是当我使用它时,我不可避免地遇到以下情况:

  • 笔记本很快变得过于复杂和混乱,无法像笔记本那样进行维护和改进,我必须制作python脚本;
  • 当涉及到生产代码(例如需要每天重新运行的代码)时,笔记本电脑再次不是最好的格式。

假设我在jupyter中开发了一个整机学习管道,其中包括从各种来源获取原始数据,清理数据,特征工程和培训模型。现在,用高效可读的代码制作脚本的最佳逻辑是什么?到目前为止,我曾经采取过几种方式解决这个问题:

  1. 只需将.ipynb转换为.py,只需稍加更改,就可以将笔记本中的所有管道硬编码为一个python脚本。

    • ' +':快速
    • ' - ':脏,不灵活,维护不方便
  2. 创建一个包含许多函数的脚本(大约每1个或两个单元格有1个函数),尝试使用单独的函数组成管道的各个阶段,并相应地命名它们。然后通过argparse指定所有参数和全局常量。

    • ' +':使用更灵活;更可读的代码(如果您正确地将管道逻辑转换为函数)
    • ' - ':通常情况下,管道不能拆分成逻辑上完成的部分,这些部分可以成为函数而代码中没有任何怪癖。所有这些函数通常只需要在脚本中调用一次,而不是在循环,映射等内多次调用。此外,每个函数通常都会获取之前调用的所有函数的输出,因此必须将多个参数传递给每个函数。功能。
  3. 与第(2)点相同,但现在将所有函数包装在类中。现在,所有全局常量以及每个方法的输出都可以存储为类属性。

    • ' +':您无需向每个方法传递多个参数 - 所有以前的输出都已存储为属性
    • ' - ':任务的整体逻辑仍未被捕获 - 它是数据和机器学习管道,而不仅仅是类。该类的唯一目标是创建,逐个调用所有方法,然后删除。除此之外,课程实施起来还很长。
  4. 使用多个脚本将笔记本转换为python模块。我没有试过这个,但我怀疑这是解决这个问题的最长方法。

  5. 我想,这种整体设置在数据科学家中很常见,但令人惊讶的是我找不到任何有用的建议。

    请各位朋友分享您的想法和经验。你有没有遇到过这个问题?你是怎么解决它的?

4 个答案:

答案 0 :(得分:11)

我们遇到了类似的问题。然而,我们正在使用几个笔记本来对结果进行原型设计,毕竟这些结果也应该成为几个python脚本。

我们的方法是将代码放在一边,在这些笔记本中重复这些代码。我们将它放入python模块,该模块由每个笔记本导入并用于生产。我们不断迭代地改进这个模块,并添加我们在原型设计过程中发现的测试。

然后,笔记本变得非常像配置脚本(我们只是简单地将其复制到最终生成的python文件中)和几个原型设计检查和验证,我们在生产中不需要这些脚本。

最重要的是我们并不害怕重构:)

答案 1 :(得分:8)

  

生命保护:在编写笔记本时,逐步将代码重构为函数,编写一些最小的assert测试和文档字符串。

之后,从笔记本到脚本的重构是很自然的。不仅如此,即使您没有计划将它们变成其他任何东西,它也能让您在编写长笔记本时更轻松。

具有“最小”测试和文档字符串的单元格内容的基本示例:

def zip_count(f):
    """Given zip filename, returns number of files inside.

    str -> int"""
    from contextlib import closing
    with closing(zipfile.ZipFile(f)) as archive:
        num_files = len(archive.infolist())
    return num_files

zip_filename = 'data/myfile.zip'

# Make sure `myfile` always has three files
assert zip_count(zip_filename) == 3
# And total zip size is under 2 MB
assert os.path.getsize(zip_filename) / 1024**2 < 2

print(zip_count(zip_filename))

将它导出到裸.py个文件后,您的代码可能还没有被编译成类。但值得努力将您的笔记本重构为具有一组记录的函数,每个函数都有一组简单的assert语句,可以轻松移入tests.py进行测试{ {1}},pytest,或者你有什么。如果它有意义,那么将这些函数捆绑到类的方法之后就很容易了。

如果一切顺利,那么你需要做的就是编写你的if __name__ == '__main__':及其“钩子”:如果你正在编写要由终端调用的脚本,你需要{{3如果你正在编写一个模块,你会想到handle command-line arguments等等。

这一切都取决于预期的用例,当然:将笔记本电脑转换为小型脚本与将其转变为成熟的模块或软件包之间存在很大差异。

以下是笔记本到脚本工作流程的一些想法

  1. 通过GUI将Jupyter Notebook导出为Python文件(.py)。
  2. 删除不执行实际工作的“帮助”行:unittest语句,情节等。
  3. 如果需要,将您的逻辑捆绑到类中。所需的唯一重构工作应该是编写类文档字符串和属性。
  4. 使用print编写脚本的入口通道。
  5. 为您的每个功能/方法分隔if __name__ == '__main__'语句,并在assert中充实最小的测试套件。

答案 2 :(得分:2)

我最近制作了一个模块(NotebookScripter)以帮助解决此问题。它允许您通过函数调用来调用jupyter笔记本。使用起来就像

from NotebookScripter import run_notebook
run_notebook("./path/to/Notebook.ipynb", some_param="Provided Exteranlly")

关键字参数可以传递给函数调用。它很容易使笔记本电脑可以在外部进行参数设置。

.ipynb单元格内

from NotebookScripter import receive_parameter

some_param = receive_parameter(some_param="Return's this value by default when matching keyword not provided by external caller")

print("some_param={0} within the invocation".format(some_param))

run_notebook()支持.ipynb文件或.py文件-允许人们轻松使用.py文件,就像vscode的ipython的nbconvert生成的那样。您可以以对交互使用有意义的方式来组织代码,并在需要时在外部重用/自定义代码。

答案 3 :(得分:1)

您应该分步分解逻辑,这样您的管道将更易于维护。由于您已经有一个正常工作的代码库,因此您希望保持代码运行,因此请进行少量更改,测试并重复。

我会这样:

  1. 在您的管道中添加一些测试,对于ML管道来说,这有点困难,但是如果您的笔记本训练模型,则可以使用性能指标来测试管道是否仍然有效(您的测试的准确度= 0.8,但是确保您定义了一个可容忍的范围,因为每次运行的数字几乎都不完全相同
  2. 将单个笔记本拆分成较小的笔记本,其中一个的输出应作为另一个的输入。创建拆分后,请确保分别为每个笔记本添加一些测试。要管理此顺序执行,您可以使用papermill执行笔记本,或者使用ploomber这样的工作流程管理工具与papermill集成在一起,能够解决复杂的依赖关系并具有在笔记本上运行测试的钩子处决(免责声明:我是ploomber的作者)
  3. 一旦拥有由多个笔记本组成的管道通过所有测试,就可以决定是否要继续使用ipynb格式。我的建议是只保留具有丰富输出(例如表格或绘图)的任务作为笔记本,其余的可以重构为Python函数,这样更易​​于维护