****注意:我尝试删除重复项,但DF2中没有重复项
我有两个DataFrame,DF1包含240320行文本(每行一行),每行都有一个议长名称和会议ID。 DF2包含11962年发言人姓名列表和相应的发言人ID。我想为DF1添加一列,并为每行添加相应的扬声器ID。合并两者(左合并)时,我得到了一个240890行的DataFrame。
为什么要添加大约500个重复项?
main_file = "C:\\Users\\Dror\\Google Drive\\Thesis\Research\\Data\\fiver\\TRIALHansards_Committees_35th_parliament_parsed.csv"
ids_only = "C:\\Users\\Dror\\Google Drive\\Thesis\\Research\\Data\\Ratio\\35th_MP_List - 35thParliamentList.csv"
data = pd.read_csv(main_file)
df = pd.DataFrame(data)
data2 = pd.read_csv(ids_only)
df2 = pd.DataFrame(data2)
### JOIN BASED ON NAMES
merged = pd.merge(df, df2, on='Speaker', how='left')
merged2 = pd.DataFrame(merged)