Question

我想使用Data Factory V2执行带有依赖项（egg或zip文件）的PySpark作业。

当以节点提交方式直接在头节点集群（HD Insight）上运行命令时，它如下（并且有效）：

spark-submit --py-files 0.3-py3.6.egg main.py 1

在Data Factory（V2）中，我尝试定义以下内容：

{
    "name": "dimension",
    "properties": {
        "activities": [{
                "name": "Spark1",
                "type": "HDInsightSpark",
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false
                },
                "typeProperties": {
                    "rootPath": "adfspark",
                    "entryFilePath": "main.py",
                    "getDebugInfo": "Always",
                    "sparkConfig": {
                        "spark.submit.pyFiles": "0.3-py3.6.egg"
                    },
                    "sparkJobLinkedService": {
                        "referenceName": "AzureStorageLinkedService",
                        "type": "LinkedServiceReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "hdinsightlinkedService",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }
}

尝试指定依赖项的确切路径（＆＃34; wasb：//.../0.3-py3.6.egg"或adfspark / pyFiles / 0.3-py3.6.egg），如建议的那样在这个帖子中： How to setup custom Spark parameter in HDInsights cluster with Data Factory

所有这一切都在＆＃34; adfspark＆＃34;是容器，依赖项位于＆＃34; pyFiles＆＃34;文件夹很像Azure文档中建议的： https://docs.microsoft.com/en-us/azure/data-factory/tutorial-transform-data-spark-powershell

仅在头节点上运行作业将是一个充分的开始，尽管分布式执行是真正的目标

使用Azure Data Factory V2执行具有依赖关系的PySpark作业

0 个答案: