应用错误收集

时间：2017-08-19 01:18:28

标签： azure apache-spark hdinsight azure-data-lake

我正在构建一个Spark库，开发人员在编写他们的spark作业时将使用它来访问Azure Data Lake上的数据。但身份验证将取决于他们要求的数据集。我需要从spark作业中调用rest API来获取凭据并进行身份验证以从ADLS读取数据。这甚至可能吗？我是新来的。

答案 0 :(得分：0)

您并不是100％清楚您实际打算做什么。所以这是一个通用的答案。

如果您的代码只是通过Spark调用并且能够访问文件系统，那么您的工作非常简单。在HDInsight群集上，您可以通过在各个位置提供adl：// URL来直接访问数据。对于您自己的Spark群集，您可以按照以下说明将其连接到ADLS：https://medium.com/azure-data-lake/connecting-your-own-hadoop-or-spark-to-azure-data-lake-store-93d426d6a5f4

现在，如果您正在开发其他内容，则需要评估您正在执行的环境是否可以访问Spark类路径中的jar。然后，您可以使用安装在那里的ADLS Java SDK并访问ADLS。

希望这至少有点用处。