在python中使用来自csv的Textblob训练分类器 - 编码问题

时间:2015-03-10 22:31:43

标签: python csv text encoding textblob

我正在尝试通过从CSV文件加载我的训练集来训练带有Textblob的分类器。 CSV中的文本应为UTF-8。 当我尝试运行我的代码时:

# -*- coding: utf-8 -*-
from textblob.classifiers import NaiveBayesClassifier
with open('trainingset.csv', 'r') as fp:
   cl = NaiveBayesClassifier(fp, format="csv")

我收到以下错误:

UnicodeDecodeError: 'utf8' codec can't decode byte 0x92 in position 31:    invalid start byte

然而,似乎Texblob正在使用UTF-8对CSV进行编码(我查看了CSV开启工具的源代码,可以找到here)

所以我真的不明白为什么我会收到这个错误。有什么帮助来解决这个问题吗?

1 个答案:

答案 0 :(得分:0)

你应该在python文件的开头有以下行

 # -*- coding: utf-8 -*-