Question

我的文件中有一些疯狂的东西。看起来像这样：

我尝试使用以下方法摆脱它：

df['firstname'] = map(lambda x: x.decode('utf-8','ignore'), df['firstname'])

但是我在数据帧中对此做了总结：<map object at 0x0000022141F637F0>

我从另一个问题中得到了该示例，这似乎是执行此操作的Python3方法，但是我不确定自己做错了什么。

编辑：出于某种奇怪的原因，有人认为这与获取地图以返回列表有关。中心问题是摆脱非UTF-8字符。我是否正确地做到这一点尚待确定。

据我了解，我必须对数据框的一列中的每个字符进行操作。还有另一种技术还是映射正确的方法？如果是，为什么我得到指示的输出？

Edit2：由于某种原因，我的机器不允许我创建示例。我现在可以。这就是我要处理的。所有那些奇怪的角色都需要走。

import pandas as pd

data = [['≡ƒªÄAle','╬æ╬╗╬¡╬╛╬▒╬╜╬┤╧ü╬▒'],['∩┐╜∩┐╜Grain','Girl≡ƒî╛'],['─É├┤╠â Vu╠â','├¬n Anh'],['Don','Johnson']]
df = pd.DataFrame(data,columns=['firstname','lastname'])

print(df)

编辑3：我很讨厌使用reg ex进行此操作，由于某种原因，它仍然无法正常工作。

df['firstname'] = df['firstname'].replace('[^a-zA-z\s]',' ')

此正则表达式可以在另一个过程中进行FINE，但是在这里，它仍然保留了丑陋的字符。

编辑4：结果是我们正在查看的图像数据。

如何使用Python从熊猫数据框中删除特殊的常用字符

0 个答案: