在python3和pandas中,我具有以下数据框:
autores_naodeputados.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 0 entries
Data columns (total 19 columns):
IdAutor 0 non-null object
IdDocumento 0 non-null object
NomeAutor 0 non-null object
codigo_unico 0 non-null object
nome_deputado 0 non-null object
uf 0 non-null object
nome_completo 0 non-null object
sequencial 0 non-null object
cpf 0 non-null object
nome_urna 0 non-null object
partido_eleicao 0 non-null object
situacao 0 non-null object
AnoLegislativo 0 non-null object
CodOriginalidade 0 non-null object
DtEntradaSistema 0 non-null datetime64[ns]
DtPublicacao 0 non-null datetime64[ns]
Ementa 0 non-null object
IdNatureza 0 non-null object
NroLegislativo 0 non-null object
dtypes: datetime64[ns](2), object(17)
memory usage: 0.0+ bytes
它是有关立法项目作者的数据库。 “ NomeAutor”列是政客的名字。
“ NroLegislativo”列是该项目在当年收到的序列号。
“ CodOriginalidade”列具有其他给定的顺序代码,而不是所有项目类型。
“ IdNatureza”列是指示哪种类型的程序(法律,修正案等)的代码。
“ AnoLegislativo”列是提交项目的年份。
结合这四个领域(NroLegislativo,CodOriginalidade,IdNatureza和AnoLegislativo),我有一个独特的密钥,可以区分每个政治名称中的项目。
是否可以计算每个政治人物拥有多少个唯一密钥?因此,要知道每个人有多少个项目。
-/-
行的示例如下:
autores_projetos[['NomeAutor', 'NroLegislativo', 'CodOriginalidade', 'IdNatureza', 'AnoLegislativo']].head(5).to_dict()
{'NomeAutor': {0: 'Vaz de Lima',
1: 'Edmir Chedid',
2: 'Roberto Engler',
3: 'Campos Machado',
4: 'Célia Leão'},
'NroLegislativo': {0: '9', 1: '9', 2: '9', 3: '9', 4: '9'},
'CodOriginalidade': {0: nan, 1: nan, 2: nan, 3: nan, 4: nan},
'IdNatureza': {0: '5', 1: '5', 2: '5', 3: '5', 4: '5'},
'AnoLegislativo': {0: '2015', 1: '2015', 2: '2015', 3: '2015', 4: '2015'}}
我需要知道以下内容:
NomeAutor
Gil Lancaster 386
Itamar Borges 200
Campos Machado 189
Carlos Giannazi 189
Cezinha de Madureira 165
Afonso Lobato 152
Mauro Bragato 149
...
来源是一个分组依据:
autores_deputados.groupby("NomeAutor").NroLegislativo.count().sort_values(ascending=False)
但是正如我在上面的案例中所说,唯一键由许多字段组成