如何基于熊猫中另一个数据框的列组合值重新排列数据框?

时间:2020-09-30 19:51:22

标签: python-3.x pandas numpy dataframe reindex

我有两个数据帧,如下图所示。我们将上一个称为df1,下一个称为df2df2是我的基本数据框。这意味着我的高df1应该以低df2的形式重新排列。我想以这样一种方式排列df1的所有行,使其每行都通过搜索整个df2来完成。如果df1中有任何行,其{的“ jobType”,“ degree”,“ major”,“ yearsExperience”和“ milesFromMetropolis”列(即 characteristics )具有相同的值{1}},然后将该行复制到df2中的对应行中,并使用df1中提供的相似的“ jobId”和“ companyId”对其重新编制索引。换句话说,我想创建一个df2版本,该版本具有与df1相同的特征,就好像我们要倒退df1行的随机改组一样。如果有这样的行,则还将从df2中获取“ jobId”和“ companyId”,并将其分配给df1的相应行;否则,将新的“ jobId”和“ companyId”分配给df2中未在其列值中找到的df1的相同行。

注意:数据帧大约为1,000,000行,我只显示前10行。并且,由于df2具有正确的薪水,而忽略了两个数据帧中的“薪水”列,而df1由于其混洗性质而预测了薪水。

感谢您的帮助,

enter image description here

0 个答案:

没有答案