我正在使用Python 2.7编写一个脚本,允许我将中文句子中的单词分开(单词之间没有空格)。我在这里遇到很多问题,我猜这与编码有关:
如果我尝试在脚本上执行这个简单的命令就可以正常工作,但是在shell上我得到了:
>>> sentence= '我每天学习'
Unsupported characters in input
出于某种原因,每当我从头到尾删除字符时,只剩下一个字符('我'),我得到的字符就是'æ''。
我用来缩短每次最后一个字符的句子是这样的:
for i in range(num_characters/3):
temp= sentence[:num_characters-i*3]
其中 num_characters 将是字符数乘以3;而 temp 将是我正在分析的新句子。
我在脚本中使用UTF-8编码,理论上IDLE也使用UTF-8,所以我有点迷失。任何形式的帮助将不胜感激。