我正在研究nlp项目,并且试图从令牌列表中清除诸如“ 0xla4ca44le0”之类的单词“ comment”
1- re.escape()
2- re.split('\[a-z]+[0-9]+' , text )
TypeError:预期的字符串或类似字节的对象
答案 0 :(得分:0)
似乎您有编码问题。尝试使用utf-8导入数据框,然后删除非ascci字符(((如果“ 0x”是某个十六进制数字的一部分,否则它将以utf-8编码显示在屏幕上)
mydataframe_in_utf8 = pd.read_csv('file.csv', encoding='utf-8')
然后删除所有非ASCII字符:
def remove_non_ascii(text):
return text.encode('ascii', 'ignore').decode('ascii')
df.comment.apply(remove_non_ascii)