当我尝试用UTF-8字符串找到单词的计数时,我得到了下一个:
UnicodeEncodeError
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-4: ordinal not in range(128)
这就是我的工作
tr.words_count = (str(tr.transcribe).count(' '))
我需要计算UTF-8文本中有多少单词,而且我的方法似乎不起作用。你有什么想法? 感谢
答案 0 :(得分:4)
str(tr.transcribe.decode('utf-8'))
或者更好,
unicode(tr.transcribe).count(' ')
甚至更好(如果一行中有多个空格,不要混淆),
len(unicode(tr.transcribe).split())