处理Python中的Unicode范围

时间:2014-01-06 17:18:51

标签: python regex unicode

我正在尝试测试给定的字符串是否在片假名范围内。

我尝试了这里提出的解决方案:Python and Unicode Blocks for regex。但是,我的输出仍然是#34;无"。我在这里失踪了什么?

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
print re.search(u'[\u30A0-\u30FF]', u'カタカ')

1 个答案:

答案 0 :(得分:1)

您的问题是您正在使用Windows。您指定源文件是UTF-8,但Windows不使用UTF-8 - 它使用各种代码页,具体取决于Windows本身的语言版本和设置。

许多编辑器都可以覆盖Windows代码页并将文件另存为UTF-8。例如,记事本在“另存为”对话框中有一个Encoding列表。