Question

我有一个包含14000个人ID的数据框df1。我有另一个数据框df2，其中包含300000个ID和其他属性的数据。我需要将df1的14000 ID与df2的300000 ID匹配，并提取出这14000 ID的整行。

df1 personUuid
0   99afae32-1486-47db-825e-6695f742eb86
1   bb22ca94-1f4b-435c-98ff-bd6f02a6b42b
2   ecfdc560-cc97-4525-8d1e-e3536793ef6e
3   8fbe1e4f-ae1e-4949-afd9-b120f6ae3762
4   d83dc0c4-26e6-4126-926d-7b84913bca13
... ...
14367   23592455-47a2-47ef-9d21-a283ae50988d
14368   1adecd7e-a0c2-4c35-bef1-75569f3b57fe
14369   e96f6eb4-d823-47b4-bd03-755e8f685e8f
14370   c87156e2-9610-40f4-a75a-17435d9fa91f
14371   70f08fd1-c595-4d01-886d-ed586a77c1d1


personUuid  firstName   middleName  lastName    emails  urls    locations   currentTitles   currentCompanies    education   ... count_currentTitles fullName    li_clean    gh_clean    tw_clean    fb_clean    email_clean email_clean1    email_clean2    email_clean3
0   ab92fa98-2427-461d-87ac-31a440b6e1ae    
1   658c57b9-457a-4e97-8b1c-10ab45655518    
2   7da5a858-3c20-46c0-b728-23e64352094d    
3   9c14f2b6-a81a-49af-85d4-d4cf76001f07

类似地，我有第二个数据框，其中包含30万个人ID和全名，电子邮件，位置等属性。

需要将那些14K ID与300 K匹配，并仅显示14K的所有属性。

Answer 1

您需要使用内部联接进行合并，如下所示：

df1['personUuid'] = df1['personUuid'].str.strip()
df2['personUuid'] = df2['personUuid'].str.strip()
df = pd.merge(left=df1, right=df2, how='inner', on=['personUuid'])

熊猫：从包含300000行的数据框中过滤14000行

1 个答案: