在Azure机器学习中的R脚本中访问blob存储中的文件?

时间:2017-06-19 10:06:52

标签: r azure azure-storage-blobs azure-machine-learning-studio

Azure机器学习中R脚本中blob存储中访问(读取和写入)文件的简便方法是什么?

我可以使用azure模块在python脚本中访问blob存储中的文件,但似乎没有简单的方法可以通过R脚本访问。

我尝试在R脚本中将Azure SMR导入为zip文件,但导入所有依赖项是非常困难的工作,

https://github.com/Microsoft/AzureSMR

感谢任何建议和帮助。

2 个答案:

答案 0 :(得分:1)

听起来你知道如何安装&在Azure ML上使用R包。如果没有,请参阅文档Installing R package in Azure Machine Learning and use R package再试一次。

根据我的经验,我认为R包AzureSMR不是仅用于Azure存储,而是用于资源管理。因此,在Azure ML中使用它并不是一个好主意,并且您需要做更多工作,包括在Azure AD上注册应用程序等,以使代码使用其API工作。

我的建议是尝试通过在Azure ML的httr中使用R包Execute R Script来使用the REST APIs of Azure Blob Storage。您可以参考SO线程Azure PUT Blob authentication fails in R来了解如何执行此操作。同时,AzureSMR的源代码对您重复使用非常有价值。重写这些常用功能以进行身份​​验证或执行blob CRUD操作。

希望它有所帮助。如有任何疑虑,请随时告诉我。

答案 1 :(得分:0)

感谢您的建议,Perter Pan。

我关注Azure PUT Blob authentication fails in R

但是,脚本运行失败。 错误消息是

error:1411809D:SSL routines:SSL_CHECK_SERVERHELLO_TLSEXT:tls invalid 
ecpointformat list

我认为问题可能与https访问有关。 (我写这个是因为当使用python脚本访问Azure ML中的blob存储时,我也跟着Access Azure blog storage from within an Azure ML experiment

我发现R的同样问题是 Error:1411809D:SSL routines - When trying to make https call from inside R module in AzureML

那么,我将https更改为http。 但是脚本尝试多次访问blob存储并且从未完成运行。我可以在Azure门户的存储中发现请求编号大大增加。

我的代码实际上类似于Azure PUT Blob authentication fails in R 除了请求网址已更改为http

脚本很糟糕。

library(httr)

account <- "accountname"
container <- "containrname"
filename <- "test.txt"
key <- "8FS+3i9eXx....r54Gl97F0nVwyDcV7lXbcWhmQ=="
object <- "Hello World" 

url <- paste0("http://", account, ".blob.core.windows.net/", container, 
"/", filename)
requestdate <- format(Sys.time(),"%a, %d %b %Y %H:%M:%S %Z", tz="GMT")  

content_length <- nchar(object, type = "bytes")  

signature_string <- paste0("PUT", "\n",            # HTTP Verb
                       "\n",                   # Content-Encoding  
                       "\n",                   # Content-Language
                       content_length, "\n",   # Content-Length
                       "\n",                   # Content-MD5
                       "text/plain", "\n",     # Content-Type
                       "\n",                   # Date
                       "\n",                   # If-Modified-Since
                       "\n",                   # If-Match  
                       "\n",                   # If-None-Match
                       "\n",                   # If-Unmodified-Since
                       "\n",                   # Range
                       # Here comes the Canonicalized Headers
                       "x-ms-blob-type:BlockBlob","\n",
                       "x-ms-date:",requestdate,"\n",
                       "x-ms-version:2015-02-21","\n",
                       # Here comes the Canonicalized Resource
                       "/",account, "/",container,"/", filename)

headerstuff <- add_headers(Authorization=paste0("SharedKey 
",account,":", 
                   RCurl::base64(digest::hmac(key = 
RCurl::base64Decode(key, mode = "raw"),
                   object = enc2utf8(signature_string),
                   algo = "sha256", raw = TRUE))),
                   `Content-Length` = content_length,
                   `x-ms-date`= requestdate,
                   `x-ms-version`= "2015-02-21",
                   `x-ms-blob-type`="BlockBlob",
                   `Content-Type`="text/plain")


content(PUT(url, config = headerstuff, body = object, verbose()), as = 
"text")