Azure机器学习服务-数据集API问题

时间:2019-12-02 18:10:07

标签: automl azure-machine-learning-service

我正在尝试使用AML的autoML功能。我在示例笔记本中看到它正在使用Dataset.Tabular.from_delimited_files(train_data),它仅从https路径获取数据。我想知道如何直接使用pandas dataframe automl config而不使用数据集API。另外,我如何将pandas数据框转换为表格数据集并传递给automl config?

1 个答案:

答案 0 :(得分:1)

您可以轻松地将熊猫数据框保存到镶木地板,将数据上传到工作区的默认Blob存储,然后从那里创建Dataset

# ws = <your AzureML workspace>
# df = <contains a pandas dataframe>
from azureml.core.dataset import Dataset
os.makedirs('mydata', exist_ok=True)
df.to_parquet('mydata/myfilename.parquet')
dataref = ws.get_default_datastore().upload('mydata')
dataset = Dataset.Tabular.from_parquet_files(path = dataref.path('myfilename.parquet'))
dataset.to_pandas_dataframe()

或者您也可以仅从门户网站http://ml.azure.com中的本地文件创建Dataset enter image description here

一旦您在门户网站中创建了它,它将为您提供加载它的代码,看起来像这样:

# azureml-core of version 1.0.72 or higher is required
from azureml.core import Workspace, Dataset

subscription_id = 'xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx'
resource_group = 'ignite'
workspace_name = 'ignite'

workspace = Workspace(subscription_id, resource_group, workspace_name)

dataset = Dataset.get_by_name(workspace, name='IBM-Employee-Attrition')
dataset.to_pandas_dataframe()