我有2个不同变量的数据集。但两者都包含一个变量,比如NUM,它有助于识别事件的发生。通过NUM,我能够通过标记它来识别事件。如何运行RF以有效地包含2个数据集的考虑因素?由于每个NUM的记录数不同,我无法追加它们(列式)。
答案 0 :(得分:1)
从您提出问题的方式来看,我猜测您有两个pandas数据帧。
您可以使用pandas.merge将两者结合在一起。你需要做的就是某种联合。左侧可能是您正在寻找的内容,但如果您只想在两个数据帧中提取NUM值的数据,请使用内部联接。
请参阅此处的文档:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html
以下是看起来的样子:
pd.merge(df1,df2,how='left',left_on='NUM')
答案 1 :(得分:0)
您可以尝试将NUM作为单个列,第一个和第二个数据集将使用完全独立的列,不匹配的单元格包含空数据。结果是否有用将取决于您的数据。