在Python 3和pandas中,我有一个全名的数据框。我的默认编码是utf-8。名称是葡萄牙语,因此它们具有拼写重音
perfis_deputados.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 513 entries, 0 to 512
Data columns (total 10 columns):
data_nascimento 513 non-null object
e_mail 513 non-null object
link_api 513 non-null object
link_foto 513 non-null object
nome_completo 513 non-null object
nome_eleitoral 513 non-null object
partido 513 non-null object
sexo 513 non-null object
telefone 513 non-null object
uf 513 non-null object
dtypes: object(10)
memory usage: 40.2+ KB
列&#34; nome_completo&#34;和&#34; nome_eleitoral&#34;有这样的案例:
AELTON JOSÉ DE FREITAS
JOÃO ALBERTO FRAGA SILVA
ALTINEU CÔRTES
我需要将此数据框与另一个数据框进行比较 - 比较名称。但是这第二个数据框的名称没有任何拼写重音。所以名称看起来像这样,例如
AELTON JOSE DE FREITAS
JOAO ALBERTO FRAGA SILVA
ALTINEU CORTES
拜托,有没有办法比较忽略正字形重音?或者删除我正在分析的列中的拼写重音?
答案 0 :(得分:1)
您可以像这样定义和应用DF的功能:
import unidecode
def f(str):
return (unidecode.unidecode(str))
perfis_deputados["nome_completo"].apply(f)