如何在熊猫中比较有和没有正交重音的名字?

时间:2018-01-05 14:35:26

标签: python pandas spelling

在Python 3和pandas中,我有一个全名的数据框。我的默认编码是utf-8。名称是葡萄牙语,因此它们具有拼写重音

perfis_deputados.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 513 entries, 0 to 512
Data columns (total 10 columns):
data_nascimento    513 non-null object
e_mail             513 non-null object
link_api           513 non-null object
link_foto          513 non-null object
nome_completo      513 non-null object
nome_eleitoral     513 non-null object
partido            513 non-null object
sexo               513 non-null object
telefone           513 non-null object
uf                 513 non-null object
dtypes: object(10)
memory usage: 40.2+ KB

列&#34; nome_completo&#34;和&#34; nome_eleitoral&#34;有这样的案例:

AELTON JOSÉ DE FREITAS
JOÃO ALBERTO FRAGA SILVA
ALTINEU CÔRTES

我需要将此数据框与另一个数据框进行比较 - 比较名称。但是这第二个数据框的名称没有任何拼写重音。所以名称看起来像这样,例如

AELTON JOSE DE FREITAS
JOAO ALBERTO FRAGA SILVA
ALTINEU CORTES

拜托,有没有办法比较忽略正字形重音?或者删除我正在分析的列中的拼写重音?

1 个答案:

答案 0 :(得分:1)

您可以像这样定义和应用DF的功能:

import unidecode
def f(str):
    return (unidecode.unidecode(str))

perfis_deputados["nome_completo"].apply(f)