安排pyspark笔记本

时间:2016-06-17 11:53:12

标签: python hadoop pyspark oozie jupyter-notebook

我有一个ipython笔记本,在群集上包含一些PySpark代码。目前我们正在使用oozie通过HUE在Hadoop上运行这些笔记本。设置感觉不太理想,我们想知道是否有替代方案。

我们首先将Private Sub combobox1_PreviewKeyDown(sender As Object, e As Windows.Input.KeyEventArgs) Handles combobox1.PreviewKeyDown If combobox1.IsReadOnly Then If e.Key = Key.Tab Then e.Handled = False Else e.Handled = True End If End If End Sub 文件转换为.ipynb文件并将其移至hdfs。除了这个文件,我们还创建了一个调用python文件的.py文件。内容类似于:

.sh

接下来,我们有Oozie指向此#!/bin/sh set -e [ -r /usr/local/virtualenv/pyspark/bin/activate ] && source /usr/local/virtualenv/pyspark/bin/activate spark-submit --master yarn-client --<setting> <setting_val> <filename>.py 文件。这种流程感觉有点麻烦,而Oozie并没有让我们深入了解出现问题时出了什么问题。我们确实喜欢Oozie如何根据您的配置知道如何以并行或串行方式运行任务。

是否有更好,更顺畅的方式来安排pyspark笔记本电脑?

1 个答案:

答案 0 :(得分:1)

OOZIE-2482最近被添加到Oozie的主人,这将使运行PySpark的工作变得更容易。不幸的是,它尚未发布。

可以将Spark Action添加到您的工作流程中,应在标记中指定py文件。必须将py文件和Spark版本的pyspark.zip和py4j--src.zip添加到workflow.xml旁边的lib /文件夹中,它应该可以工作。