我有一个ipython笔记本,在群集上包含一些PySpark代码。目前我们正在使用oozie通过HUE在Hadoop上运行这些笔记本。设置感觉不太理想,我们想知道是否有替代方案。
我们首先将Private Sub combobox1_PreviewKeyDown(sender As Object, e As Windows.Input.KeyEventArgs) Handles combobox1.PreviewKeyDown
If combobox1.IsReadOnly Then
If e.Key = Key.Tab Then
e.Handled = False
Else
e.Handled = True
End If
End If
End Sub
文件转换为.ipynb
文件并将其移至hdfs。除了这个文件,我们还创建了一个调用python文件的.py
文件。内容类似于:
.sh
接下来,我们有Oozie指向此#!/bin/sh
set -e
[ -r /usr/local/virtualenv/pyspark/bin/activate ] &&
source /usr/local/virtualenv/pyspark/bin/activate
spark-submit --master yarn-client --<setting> <setting_val> <filename>.py
文件。这种流程感觉有点麻烦,而Oozie并没有让我们深入了解出现问题时出了什么问题。我们确实喜欢Oozie如何根据您的配置知道如何以并行或串行方式运行任务。
是否有更好,更顺畅的方式来安排pyspark笔记本电脑?
答案 0 :(得分:1)
OOZIE-2482最近被添加到Oozie的主人,这将使运行PySpark的工作变得更容易。不幸的是,它尚未发布。
可以将Spark Action添加到您的工作流程中,应在标记中指定py文件。必须将py文件和Spark版本的pyspark.zip和py4j--src.zip添加到workflow.xml旁边的lib /文件夹中,它应该可以工作。