我试图合并两个非常简单的数据帧 - 每个数据帧包含6列文本。当我进行合并时,由于神秘的特殊字符没有出现在初始数据帧中,我会得到大量不会合并的记录,但确实出现在现在合并的帧中。例如,最初两个数据帧看起来都像启动器。但是,当我尝试执行合并时,将会有几个记录在"右边"现在出现神秘字符的数据集。结果,他们不会合并。例如:
STARTER(两个数据集)
merge_year merge_mo merge_day merge_st merge_name merge_county
1901 1 2 AL BOONEY ELMORE
1907 1 3 AL MOVES COVINGTON
1938 1 4 AL JACK ROVERS COVINGTON
合并后的数据帧#1(仅限左侧)
merge_year merge_mo merge_day merge_st merge_name merge_county
1901 1 2 AL BOONEY ELMORE
1907 1 3 AL MOVES COVINGTON
1938 1 4 AL JACK ROVERS COVINGTON
合并后的数据帧#2(仅限右侧)
merge_year merge_mo merge_day merge_st merge_name merge_county
1901 1 2 AL — BOONEY ELMORE 
1907 1 3 AL — MOVES COVINGTON 
1938 1 4 AL JACK ROVERS COVINGTON 
现在我得到的数据帧的形状是6,6,它应该只有3个记录长。
我的代码非常简单:
new_file3 = pd.merge(set1_merge, set2_merge, how='outer', validate='many_to_many', on=['merge_year','merge_mo','merge_day','merge_state','merge_name'], indicator=True)
这里有什么提示吗?谢谢!