应用错误收集

使用按需HD Insight群集从Azure datafactory V2访问数据

时间：2018-01-09 10:18:28

标签： python pyspark hdinsight azure-data-factory azure-data-lake

我正在尝试使用Azure datafactory从按需HD Insight群集执行spark作业。

文档清楚地表明ADF（v2）不支持按需HD Insight群集的数据链接服务，并且必须将数据从复制活动复制到blob而不是执行作业。但是，对于数据池中的十亿个文件，这种解决方案似乎是一个非常昂贵的资源。是否有任何有效的方法可以从执行spark作业的python脚本或任何其他方式直接访问文件来访问datalake文件。

P.S是否有可能从v1做类似的事情，如果是，那么如何？＆＃34;使用Azure Data Factory在HDInsight中创建按需Hadoop集群＆＃34;描述按需访问blob存储的hadoop集群，但我想要按需访问datalake的火花集群。

P.P.s提前致谢

2 个答案:

答案 0 :(得分：1)

目前，我们不支持在ADF v2中使用HDI Spark群集的ADLS数据存储。我们计划在未来几个月补充这一点。到那时，您必须按照上面帖子中提到的解决方法继续使用。很抱歉给您带来不便。

答案 1 :(得分：0)

Blob存储用于随需应变群集将使用的脚本和配置文件。在您编写并存储在附加的Blob存储中的脚本中，它们可以从ADLS写入SQLDB，例如。