如何从spark作业中对ADLS进行身份验证

时间:2017-08-19 01:18:28

标签: azure apache-spark hdinsight azure-data-lake

我正在构建一个Spark库,开发人员在编写他们的spark作业时将使用它来访问Azure Data Lake上的数据。但身份验证将取决于他们要求的数据集。我需要从spark作业中调用rest API来获取凭据并进行身份验证以从ADLS读取数据。这甚至可能吗?我是新来的。

1 个答案:

答案 0 :(得分:0)

您并不是100%清楚您实际打算做什么。所以这是一个通用的答案。

如果您的代码只是通过Spark调用并且能够访问文件系统,那么您的工作非常简单。在HDInsight群集上,您可以通过在各个位置提供adl:// URL来直接访问数据。对于您自己的Spark群集,您可以按照以下说明将其连接到ADLS:https://medium.com/azure-data-lake/connecting-your-own-hadoop-or-spark-to-azure-data-lake-store-93d426d6a5f4

现在,如果您正在开发其他内容,则需要评估您正在执行的环境是否可以访问Spark类路径中的jar。然后,您可以使用安装在那里的ADLS Java SDK并访问ADLS。

希望这至少有点用处。