如何在Python中使用分类器随机林2个不同的数据集?

时间:2018-05-22 13:41:50

标签: python random-forest

我有2个不同变量的数据集。但两者都包含一个变量,比如NUM,它有助于识别事件的发生。通过NUM,我能够通过标记它来识别事件。如何运行RF以有效地包含2个数据集的考虑因素?由于每个NUM的记录数不同,我无法追加它们(列式)。

2 个答案:

答案 0 :(得分:1)

从您提出问题的方式来看,我猜测您有两个pandas数据帧。

您可以使用pandas.merge将两者结合在一起。你需要做的就是某种联合。左侧可能是您正在寻找的内容,但如果您只想在两个数据帧中提取NUM值的数据,请使用内部联接。

请参阅此处的文档:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html

以下是看起来的样子:

pd.merge(df1,df2,how='left',left_on='NUM')

答案 1 :(得分:0)

您可以尝试将NUM作为单个列,第一个和第二个数据集将使用完全独立的列,不匹配的单元格包含空数据。结果是否有用将取决于您的数据。