我有一个csv文件,似乎有几个值的垃圾数据看起来像:‡_¤Ã<çéè_... ...
我已将文件导入到pandas数据框中。我该怎样摆脱这些角色?我想删除具有这些字符的单元格的内容,并输入一个标志值(类似于-99999)。该表具有混合数据类型。
import pandas as pd
import codecs
import unicodedata
import csv
import StringIO
testData = pd.read_csv('Data.csv', encoding="iso-8859-1", engine='python')
/ 使用编码utf-8给出了一个关于无效起始字节的错误,使用默认引擎也不起作用。 /
有什么建议吗?
答案 0 :(得分:1)
如果您知道自己愿意接受哪些字符,可以使用正则表达式来过滤您的值,例如:
testData['stringcol'].where(testData['stringcol'].str.contains('[^A-Za-z0-9\s]'),
-999999)