我有两个数据帧,如下图所示。我们将上一个称为df1
,下一个称为df2
。 df2
是我的基本数据框。这意味着我的高df1
应该以低df2
的形式重新排列。我想以这样一种方式排列df1
的所有行,使其每行都通过搜索整个df2
来完成。如果df1
中有任何行,其{的“ jobType”,“ degree”,“ major”,“ yearsExperience”和“ milesFromMetropolis”列(即 characteristics )具有相同的值{1}},然后将该行复制到df2
中的对应行中,并使用df1
中提供的相似的“ jobId”和“ companyId”对其重新编制索引。换句话说,我想创建一个df2
版本,该版本具有与df1
相同的特征,就好像我们要倒退df1
行的随机改组一样。如果有这样的行,则还将从df2
中获取“ jobId”和“ companyId”,并将其分配给df1
的相应行;否则,将新的“ jobId”和“ companyId”分配给df2
中未在其列值中找到的df1
的相同行。
注意:数据帧大约为1,000,000行,我只显示前10行。并且,由于df2具有正确的薪水,而忽略了两个数据帧中的“薪水”列,而df1由于其混洗性质而预测了薪水。
感谢您的帮助,