Question

我有2个不同变量的数据集。但两者都包含一个变量，比如NUM，它有助于识别事件的发生。通过NUM，我能够通过标记它来识别事件。如何运行RF以有效地包含2个数据集的考虑因素？由于每个NUM的记录数不同，我无法追加它们（列式）。

Answer 1

从您提出问题的方式来看，我猜测您有两个pandas数据帧。

您可以使用pandas.merge将两者结合在一起。你需要做的就是某种联合。左侧可能是您正在寻找的内容，但如果您只想在两个数据帧中提取NUM值的数据，请使用内部联接。

以下是看起来的样子：

pd.merge(df1,df2,how='left',left_on='NUM')

Answer 2

您可以尝试将NUM作为单个列，第一个和第二个数据集将使用完全独立的列，不匹配的单元格包含空数据。结果是否有用将取决于您的数据。