如何使用Python从熊猫数据框中删除特殊的常用字符

时间:2019-03-12 16:59:54

标签: python-3.x pandas

我的文件中有一些疯狂的东西。看起来像这样: enter image description here

我尝试使用以下方法摆脱它:

df['firstname'] = map(lambda x: x.decode('utf-8','ignore'), df['firstname'])

但是我在数据帧中对此做了总结:<map object at 0x0000022141F637F0>

我从另一个问题中得到了该示例,这似乎是执行此操作的Python3方法,但是我不确定自己做错了什么。

编辑:出于某种奇怪的原因,有人认为这与获取地图以返回列表有关。中心问题是摆脱非UTF-8字符。我是否正确地做到这一点尚待确定。

据我了解,我必须对数据框的一列中的每个字符进行操作。还有另一种技术还是映射正确的方法?如果是,为什么我得到指示的输出?

Edit2:由于某种原因,我的机器不允许我创建示例。我现在可以。这就是我要处理的。所有那些奇怪的角色都需要走。

import pandas as pd

data = [['🦎Ale','Αλέξανδρα'],['��Grain','Girl🌾'],['Đỗ Vũ','ên Anh'],['Don','Johnson']]
df = pd.DataFrame(data,columns=['firstname','lastname'])

print(df)

编辑3:我很讨厌使用reg ex进行此操作,由于某种原因,它仍然无法正常工作。

df['firstname'] = df['firstname'].replace('[^a-zA-z\s]',' ')

此正则表达式可以在另一个过程中进行FINE,但是在这里,它仍然保留了丑陋的字符。

编辑4:结果是我们正在查看的图像数据。

0 个答案:

没有答案