如何使用re转义或删除像0xl14ca44le0这样的字符串?

时间:2019-05-29 17:23:06

标签: python regex

我正在研究nlp项目,并且试图从令牌列表中清除诸如“ 0xla4ca44le0”之类的单词“ comment”

1- re.escape()
2- re.split('\[a-z]+[0-9]+' , text )

TypeError:预期的字符串或类似字节的对象

1 个答案:

答案 0 :(得分:0)

似乎您有编码问题。尝试使用utf-8导入数据框,然后删除非ascci字符(((如果“ 0x”是某个十六进制数字的一部分,否则它将以utf-8编码显示在屏幕上)

mydataframe_in_utf8 = pd.read_csv('file.csv', encoding='utf-8')

然后删除所有非ASCII字符:

def remove_non_ascii(text):
    return text.encode('ascii', 'ignore').decode('ascii')

df.comment.apply(remove_non_ascii)