我正在编写一个Pig嵌入式python脚本,该脚本已在HDInsights中启动并运行。
我试图在python部分添加一个条件块 检查blob存储中的路径(例如wasb:// container @ account / path) 并根据此检查更新变量。
似乎标准的os.path.exists无法访问blob存储(或者我使用了错误的文件路径格式)。有人有运气吗?
答案 0 :(得分:1)
WASB是一个兼容HDFS的文件系统,所以Hadoop和Hadoop内部运行的东西(hive,mapreduce等)知道如何使用它; Python和其他操作系统的东西没有。
如果您知道用于HDInsight群集的默认存储帐户/容器,则可以使用https://github.com/Azure/azure-sdk-for-python检查容器中是否存在blob。 http://azure.microsoft.com/en-us/documentation/articles/storage-python-how-to-use-blob-storage/应该有关于使用它来访问blob的信息。