Question

我有一个包含三列的csv文件，我想循环遍历“text”列的内容并使用它的每个单元格标记（仅按字母和撇号的字符串拆分）。

这似乎不起作用：

tokenizer = RegexpTokenizer("[a-zA-Z'`éèî]+")
for x in data['text']:
     x = tokenizer.tokenize(x)

我得到的错误是TypeError：期望的字符串或类似字节的对象

Answer 1

警告：在对Unicode字符串进行标记时，请确保未使用字符串的编码版本（可能需要对其进行解码首先，例如使用s.decode（＆＃34; utf8＆＃34;）。

所以试试：

tokenizer = RegexpTokenizer("[a-zA-Z'`éèî]+")
for x in data['text']:
     x = tokenizer.tokenize(x.decode("utf8"))