使用在HDI中运行的python来访问blob存储

时间:2015-03-09 19:36:57

标签: python apache-pig hdinsight

我正在编写一个Pig嵌入式python脚本,该脚本已在HDInsights中启动并运行。

  

我试图在python部分添加一个条件块   检查blob存储中的路径(例如wasb:// container @ account / path)   并根据此检查更新变量。

似乎标准的os.path.exists无法访问blob存储(或者我使用了错误的文件路径格式)。有人有运气吗?

1 个答案:

答案 0 :(得分:1)

WASB是一个兼容HDFS的文件系统,所以Hadoop和Hadoop内部运行的东西(hive,mapreduce等)知道如何使用它; Python和其他操作系统的东西没有。

如果您知道用于HDInsight群集的默认存储帐户/容器,则可以使用https://github.com/Azure/azure-sdk-for-python检查容器中是否存在blob。 http://azure.microsoft.com/en-us/documentation/articles/storage-python-how-to-use-blob-storage/应该有关于使用它来访问blob的信息。