Question

当我尝试用UTF-8字符串找到单词的计数时，我得到了下一个：

UnicodeEncodeError
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-4: ordinal not in range(128)

这就是我的工作

tr.words_count = (str(tr.transcribe).count(' '))

我需要计算UTF-8文本中有多少单词，而且我的方法似乎不起作用。你有什么想法？感谢

Answer 1

str(tr.transcribe.decode('utf-8'))

或者更好，

unicode(tr.transcribe).count(' ')

甚至更好（如果一行中有多个空格，不要混淆），

len(unicode(tr.transcribe).split())