Question

我正在研究nlp项目，并且试图从令牌列表中清除诸如“ 0xla4ca44le0”之类的单词“ comment”

1- re.escape()
2- re.split('\[a-z]+[0-9]+' , text )

TypeError：预期的字符串或类似字节的对象

Answer 1

似乎您有编码问题。尝试使用utf-8导入数据框，然后删除非ascci字符（（（如果“ 0x”是某个十六进制数字的一部分，否则它将以utf-8编码显示在屏幕上）

mydataframe_in_utf8 = pd.read_csv('file.csv', encoding='utf-8')

然后删除所有非ASCII字符：

def remove_non_ascii(text):
    return text.encode('ascii', 'ignore').decode('ascii')

df.comment.apply(remove_non_ascii)