使用Panda和Nltk

时间:2017-10-16 16:38:03

标签: python nltk

我有一个包含三列的csv文件,我想循环遍历“text”列的内容并使用它的每个单元格标记(仅按字母和撇号的字符串拆分)。

这似乎不起作用:

tokenizer = RegexpTokenizer("[a-zA-Z'`éèî]+")
for x in data['text']:
     x = tokenizer.tokenize(x)

我得到的错误是TypeError:期望的字符串或类似字节的对象

1 个答案:

答案 0 :(得分:0)

来自documentation

  

警告:在对Unicode字符串进行标记时,请确保未使用   字符串的编码版本(可能需要对其进行解码   首先,例如使用s.decode(" utf8")。

所以试试:

tokenizer = RegexpTokenizer("[a-zA-Z'`éèî]+")
for x in data['text']:
     x = tokenizer.tokenize(x.decode("utf8"))