AZ ML工作台可以从Data Prep转换数据流表达式引用多个数据源

时间:2018-02-10 20:10:51

标签: azure-machine-learning-studio azure-machine-learning-workbench

将AZ ML工作台用于类项目(必需工具)我在探索笔记本中编写了下面所需的逻辑,但无法找到将其包含在数据准备转换数据流中的方法。

all_columns = df.columns sum_columns = [col_name for col_name in all_columns if col_name not in ['NPI', 'Gender', 'State', 'Credentials', 'Specialty']] sum_op_columns = list(set(sum_columns) & set(df_op['Drug Name'].values))

逻辑是使用来自一个数据源df_op(阿片类药物)的列名来选择要从另一个数据源df(所有药物)中包含哪些列子集。添加py脚本/表达式转换数据流时,我只能看到引用单个df的能力。替代?

1 个答案:

答案 0 :(得分:-1)

我可能有办法访问这两个数据框。

在Workbench中,一旦有了需要加载的数据源,右键单击一个并选择"生成数据访问代码文件"。

Data sources

在那里,您将自动获得访问该特定文件的代码。但是,您可以使用相同的代码访问其他文件。

在上面的屏幕截图中,我有两个数据源。我可以使用以下代码将它们作为pandas数据框进行访问,并根据需要对其进行操作。

df_salary = datasource.load_datasource('SalaryData.dsource')
df_startup = datasource.load_datasource('50-Startups.dsource')

我相信您可以将更新的数据框保存为CSV格式,然后在train脚本中使用它。

希望有助于或至少为您指出另一种解决方案。