Question

将AZ ML工作台用于类项目（必需工具）我在探索笔记本中编写了下面所需的逻辑，但无法找到将其包含在数据准备转换数据流中的方法。

all_columns = df.columns sum_columns = [col_name for col_name in all_columns if col_name not in ['NPI', 'Gender', 'State', 'Credentials', 'Specialty']] sum_op_columns = list(set(sum_columns) & set(df_op['Drug Name'].values))

逻辑是使用来自一个数据源df_op（阿片类药物）的列名来选择要从另一个数据源df（所有药物）中包含哪些列子集。添加py脚本/表达式转换数据流时，我只能看到引用单个df的能力。替代？

Answer 1

我可能有办法访问这两个数据框。

在Workbench中，一旦有了需要加载的数据源，右键单击一个并选择＆＃34;生成数据访问代码文件＆＃34;。

在那里，您将自动获得访问该特定文件的代码。但是，您可以使用相同的代码访问其他文件。

在上面的屏幕截图中，我有两个数据源。我可以使用以下代码将它们作为pandas数据框进行访问，并根据需要对其进行操作。

df_salary = datasource.load_datasource('SalaryData.dsource')
df_startup = datasource.load_datasource('50-Startups.dsource')

我相信您可以将更新的数据框保存为CSV格式，然后在train脚本中使用它。

希望有助于或至少为您指出另一种解决方案。

AZ ML工作台可以从Data Prep转换数据流表达式引用多个数据源

1 个答案: