Python中的unicode和中文字符问题

时间:2015-11-28 12:48:51

标签: python encoding chinese-locale

我正在使用Python 2.7编写一个脚本,允许我将中文句子中的单词分开(单词之间没有空格)。我在这里遇到很多问题,我猜这与编码有关:

  • 如果我尝试在脚本上执行这个简单的命令就可以正常工作,但是在shell上我得到了:

    >>> sentence= '我每天学习'
    Unsupported characters in input
    
  • 出于某种原因,每当我从头到尾删除字符时,只剩下一个字符('我'),我得到的字符就是'æ''。

我用来缩短每次最后一个字符的句子是这样的:

    for i in range(num_characters/3):
       temp= sentence[:num_characters-i*3]      

其中 num_characters 将是字符数乘以3;而 temp 将是我正在分析的新句子。

我在脚本中使用UTF-8编码,理论上IDLE也使用UTF-8,所以我有点迷失。任何形式的帮助将不胜感激。

0 个答案:

没有答案