Question

我从postgresql数据库中检索了一堆文本记录，并打算在分析它们之前预处理这些文本文档。

我想标记文档，但在标记化过程中遇到了一些问题

    #some other bunch of regex replacements
    #toToken is the text string    
    toTokens = self.regexClitics1.sub(" \\1",toTokens)                   
    toTokens = self.regexClitics2.sub(" \\1 \\2",toTokens)

    toTokens = str.strip(toTokens)

错误是TypeError: descriptor 'strip' requires a 'str' object but received a 'unicode'我很好奇，为什么当数据库的编码是UTF-8时会发生这个错误？

Answer 1

为什么不使用toTokens.strip()。不需要str模块。

Python，str和unicode中有两种字符串类型。请查看this以获取解释。

用pgsql / python编码问题？

1 个答案: