我有一个包含三列的csv文件,我想循环遍历“text”列的内容并使用它的每个单元格标记(仅按字母和撇号的字符串拆分)。
这似乎不起作用:
tokenizer = RegexpTokenizer("[a-zA-Z'`éèî]+")
for x in data['text']:
x = tokenizer.tokenize(x)
我得到的错误是TypeError:期望的字符串或类似字节的对象
答案 0 :(得分:0)
警告:在对Unicode字符串进行标记时,请确保未使用 字符串的编码版本(可能需要对其进行解码 首先,例如使用s.decode(" utf8")。
所以试试:
tokenizer = RegexpTokenizer("[a-zA-Z'`éèî]+")
for x in data['text']:
x = tokenizer.tokenize(x.decode("utf8"))