将AZ ML工作台用于类项目(必需工具)我在探索笔记本中编写了下面所需的逻辑,但无法找到将其包含在数据准备转换数据流中的方法。
all_columns = df.columns
sum_columns = [col_name for col_name in all_columns if col_name not in ['NPI', 'Gender', 'State', 'Credentials', 'Specialty']]
sum_op_columns = list(set(sum_columns) & set(df_op['Drug Name'].values))
逻辑是使用来自一个数据源df_op(阿片类药物)的列名来选择要从另一个数据源df(所有药物)中包含哪些列子集。添加py脚本/表达式转换数据流时,我只能看到引用单个df的能力。替代?
答案 0 :(得分:-1)
我可能有办法访问这两个数据框。
在Workbench中,一旦有了需要加载的数据源,右键单击一个并选择"生成数据访问代码文件"。
在那里,您将自动获得访问该特定文件的代码。但是,您可以使用相同的代码访问其他文件。
在上面的屏幕截图中,我有两个数据源。我可以使用以下代码将它们作为pandas
数据框进行访问,并根据需要对其进行操作。
df_salary = datasource.load_datasource('SalaryData.dsource')
df_startup = datasource.load_datasource('50-Startups.dsource')
我相信您可以将更新的数据框保存为CSV格式,然后在train
脚本中使用它。
希望有助于或至少为您指出另一种解决方案。