Python-Pandas-合并时重复行

时间:2018-08-30 10:55:04

标签: python pandas join text left-join

****注意:我尝试删除重复项,但DF2中没有重复项

我有两个DataFrame,DF1包含240320行文本(每行一行),每行都有一个议长名称和会议ID。 DF2包含11962年发言人姓名列表和相应的发言人ID。我想为DF1添加一列,并为每行添加相应的扬声器ID。合并两者(左合并)时,我得到了一个240890行的DataFrame。

为什么要添加大约500个重复项?

main_file = "C:\\Users\\Dror\\Google Drive\\Thesis\Research\\Data\\fiver\\TRIALHansards_Committees_35th_parliament_parsed.csv"
ids_only =  "C:\\Users\\Dror\\Google Drive\\Thesis\\Research\\Data\\Ratio\\35th_MP_List - 35thParliamentList.csv"

data = pd.read_csv(main_file)
df = pd.DataFrame(data)    
data2 = pd.read_csv(ids_only)
df2 = pd.DataFrame(data2)

### JOIN BASED ON NAMES
merged = pd.merge(df, df2, on='Speaker', how='left')
merged2 = pd.DataFrame(merged)

0 个答案:

没有答案