使用按需HD Insight群集从Azure datafactory V2访问数据

时间:2018-01-09 10:18:28

标签: python pyspark hdinsight azure-data-factory azure-data-lake

我正在尝试使用Azure datafactory从按需HD Insight群集执行spark作业。

文档清楚地表明ADF(v2)不支持按需HD Insight群集的数据链接服务,并且必须将数据从复制活动复制到blob而不是执行作业。但是,对于数据池中的十亿个文件,这种解决方案似乎是一个非常昂贵的资源。是否有任何有效的方法可以从执行spark作业的python脚本或任何其他方式直接访问文件来访问datalake文件。

P.S是否有可能从v1做类似的事情,如果是,那么如何? "使用Azure Data Factory在HDInsight中创建按需Hadoop集群"描述按需访问blob存储的hadoop集群,但我想要按需访问datalake的火花集群。

P.P.s提前致谢

2 个答案:

答案 0 :(得分:1)

目前,我们不支持在ADF v2中使用HDI Spark群集的ADLS数据存储。我们计划在未来几个月补充这一点。到那时,您必须按照上面帖子中提到的解决方法继续使用。很抱歉给您带来不便。

答案 1 :(得分:0)

Blob存储用于随需应变群集将使用的脚本和配置文件。在您编写并存储在附加的Blob存储中的脚本中,它们可以从ADLS写入SQLDB,例如。