Question

****注意：我尝试删除重复项，但DF2中没有重复项

我有两个DataFrame，DF1包含240320行文本（每行一行），每行都有一个议长名称和会议ID。 DF2包含11962年发言人姓名列表和相应的发言人ID。我想为DF1添加一列，并为每行添加相应的扬声器ID。合并两者（左合并）时，我得到了一个240890行的DataFrame。

为什么要添加大约500个重复项？

main_file = "C:\\Users\\Dror\\Google Drive\\Thesis\Research\\Data\\fiver\\TRIALHansards_Committees_35th_parliament_parsed.csv"
ids_only =  "C:\\Users\\Dror\\Google Drive\\Thesis\\Research\\Data\\Ratio\\35th_MP_List - 35thParliamentList.csv"

data = pd.read_csv(main_file)
df = pd.DataFrame(data)    
data2 = pd.read_csv(ids_only)
df2 = pd.DataFrame(data2)

### JOIN BASED ON NAMES
merged = pd.merge(df, df2, on='Speaker', how='left')
merged2 = pd.DataFrame(merged)

Python-Pandas-合并时重复行

0 个答案: