从pandas数据框中删除特定字符

时间:2015-10-13 04:06:08

标签: python csv pandas

我有一个csv文件,似乎有几个值的垃圾数据看起来像:‡_¤Ã<çéè_... ...

我已将文件导入到pandas数据框中。我该怎样摆脱这些角色?我想删除具有这些字符的单元格的内容,并输入一个标志值(类似于-99999)。该表具有混合数据类型。

import pandas as pd
import codecs
import unicodedata
import csv
import StringIO

testData = pd.read_csv('Data.csv', encoding="iso-8859-1", engine='python')

/ 使用编码utf-8给出了一个关于无效起始字节的错误,使用默认引擎也不起作用。 /

有什么建议吗?

1 个答案:

答案 0 :(得分:1)

如果您知道自己愿意接受哪些字符,可以使用正则表达式来过滤您的值,例如:

testData['stringcol'].where(testData['stringcol'].str.contains('[^A-Za-z0-9\s]'), 
-999999)