我已经在Python 3上开发了一个名为Mecab(http://taku910.github.io/mecab/)的软件。我首先是在Windows 7机器上开发的,并且在我的ubuntu机器上没有运行。在ubuntu机器中发生utf-8解码问题:
UnicodeDecodeError:'utf-8'编解码器无法解码位置1-2中的字节: 数据意外结束
它是同一程序,依赖于不同发行版的相同软件。装有exe的Windows之一,而Ubuntu则使用“配置/制作/安装”路由。该软件在上面的网站上提供。
我的程序始终在Windows机器上运行,但是,使用ubuntu程序一直成功/失败。特别是我发现,给定不同的文本,Unicode解码异常将消失。
例如,这一次失败:
その鞄,ちょっと赤くない?あのおっさん,ちょっと目つきが怪しくない?子供じゃないんだし,その格好,耻ずかしくないの?
在此工作期间:
子供じゃないんだし,その格好,耻ずかしくないの?
我不知道这是否是源文本编码问题。我已经使用记事本++将其“转换”为utf-8,但并没有帮助。编辑器显示文本文件为utf-8。
P.S。这些文字在我的日语教科书中,我用gmail输入,然后在需要时将其复制到文本文件中。