Question

我经历过很多，我会在Eclipse（PyDev）中解码/编码一些Unicode字符串，它运行正常，我的预期，但是当我从命令行启动相同的脚本时（例如）相反，我会得到编码错误。

这有什么简单的解释吗？ Eclipse是否对Unicode做了些什么/以某种不同的方式操作它？

编辑：

示例：

value = u'\u2019'.decode( 'utf-8', 'ignore' )
return value

这适用于Eclipse（PyDev），但如果我在空闲或命令行中运行它，则不行。

UnicodeEncodeError：'ascii'编解码器无法对位置135中的字符u'\ u2019'进行编码：序数不在范围内（128）

Answer 1

只是想添加为什么它适用于PyDev：它有一个特殊的sitecustomize，它将通过sys.setdefaultencoding自定义python以使用PyDev控制台的编码。

请注意，来自bobince的响应是正确的，如果你有一个unicode字符串，你必须使用encode（）方法将其转换为一个正确的字符串（如果你有一个字符串并想要转换，你可以使用解码它变成了一个unicode）。

Answer 2

value = u'\u2019'.decode( 'utf-8', 'ignore' )

字节字符串被解码为Unicode字符串。

Unicode字符串被ENCODED成字节字符串。

因此，如果您说someunicodestring.decode，它会尝试将Unicode字符串强制转换为字节字符串，以便能够对其进行解码（返回Unicode！）。作为一个隐式转换，这个编码步骤将丰富的默认编码，可能在不同的环境之间有所不同，并且可能是'安全'值ascii，这肯定会产生你提到的错误，因为ASCII可以' t包含字符U + 2019。依赖默认编码几乎绝不是一个好主意。

因此尝试decode Unicode字符串是没有意义的。我很确定你的意思是：

value = u'\u2019'.encode('utf-8')

（ignore对于编码为UTF-8是多余的，因为没有此编码无法表示的字符。）

能够在Eclipse中使用Unicode字符串运行Python代码，但在通过命令行或空闲运行时获取UnicodeEncodeError。

2 个答案: