ValueError:无法从重复轴重新索引 - pandas

时间:2016-07-07 16:21:05

标签: python python-2.7 pandas duplicates

我知道这个问题已经被问过,但我对Python是一个全新的iPython,而我并没有想通过查看其他人的例子来弄清楚如何解决我的问题。

我正在研究数据集以进行一些基本的网络分析。在各种数据帧中,导致我麻烦的是一个.csv文件(称为primary_results),它看起来像:

state,state_abbreviation,county,fips,party,candidate,votes,fraction_votes
Alabama,AL,Autauga,1001.0,Democrat,Bernie Sanders,544,0.182
Alabama,AL,Autauga,1001.0,Democrat,Hillary Clinton,2387,0.8
...
...

和另一个(county_facts),其索引为:

fips,area_name,state_abbreviation,PST045214,PST040210,PST120214,POP010210,AGE135214,AGE295214,AGE775214,SEX255214,RHI125214,RHI225214,RHI325214,RHI425214,RHI525214,RHI625214,RHI725214,RHI825214,POP715213,POP645213,POP815213,EDU635213,EDU685213,VET605213,LFE305213,HSG010214,HSG445213,HSG096213,HSG495213,HSD410213,HSD310213,INC910213,INC110213,PVY020213,BZA010213,BZA110213,BZA115213,NES010213,SBO001207,SBO315207,SBO115207,SBO215207,SBO515207,SBO415207,SBO015207,MAN450207,WTN220207,RTN130207,RTN131207,AFN120207,BPS030214,LND110210,POP060210

这是我试图运行的代码:

primary_results = pd.read_csv( '../2016-us-election/primary_results.csv' )
county_facts = pd.read_csv( '../2016-us-election/county_facts.csv' )
county_facts_dict = pd.read_csv( '../2016-us-election/county_facts_dictionary.csv' )    

primary_results.index = primary_results['fips']
del primary_results['fips']

county_facts.index = county_facts['fips']
del county_facts['fips']

county_facts_dict.index = county_facts_dict['column_name']
del county_facts_dict['column_name']

county_facts_results = county_facts.loc[sorted(list(set(primary_results.index))), : ]    

trump_results = primary_results[ primary_results[ 'candidate' ] == 'Donald Trump' ]
trump_results = trump_results.sort_index()
trump_results.loc[:, 'percent_high_school'] = county_facts_results.loc[:, 'EDU635213' ]
trump_results.loc[:, 'percent_bachelors'] = county_facts_results.loc[:, 'EDU685213' ]

结果我在代码的倒数第二行得到了“无法从重复轴重新索引”,但我无法理解为什么(在我看来,数据帧中没有这样的错误)。

有什么建议吗?

0 个答案:

没有答案
相关问题