用pgsql / python编码问题?

时间:2011-06-23 06:59:27

标签: python postgresql encoding

我从postgresql数据库中检索了一堆文本记录,并打算在分析它们之前预处理这些文本文档。

我想标记文档,但在标记化过程中遇到了一些问题

    #some other bunch of regex replacements
    #toToken is the text string    
    toTokens = self.regexClitics1.sub(" \\1",toTokens)                   
    toTokens = self.regexClitics2.sub(" \\1 \\2",toTokens)

    toTokens = str.strip(toTokens)

错误是TypeError: descriptor 'strip' requires a 'str' object but received a 'unicode'我很好奇,为什么当数据库的编码是UTF-8时会发生这个错误?

1 个答案:

答案 0 :(得分:4)

为什么不使用toTokens.strip()。不需要str模块。

Python,str和unicode中有两种字符串类型。请查看this以获取解释。