我从postgresql数据库中检索了一堆文本记录,并打算在分析它们之前预处理这些文本文档。
我想标记文档,但在标记化过程中遇到了一些问题
#some other bunch of regex replacements
#toToken is the text string
toTokens = self.regexClitics1.sub(" \\1",toTokens)
toTokens = self.regexClitics2.sub(" \\1 \\2",toTokens)
toTokens = str.strip(toTokens)
错误是TypeError: descriptor 'strip' requires a 'str' object but received a 'unicode'
我很好奇,为什么当数据库的编码是UTF-8时会发生这个错误?