我正在尝试测试给定的字符串是否在片假名范围内。
我尝试了这里提出的解决方案:Python and Unicode Blocks for regex。但是,我的输出仍然是#34;无"。我在这里失踪了什么?
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
print re.search(u'[\u30A0-\u30FF]', u'カタカ')
答案 0 :(得分:1)
您的问题是您正在使用Windows。您指定源文件是UTF-8,但Windows不使用UTF-8 - 它使用各种代码页,具体取决于Windows本身的语言版本和设置。
许多编辑器都可以覆盖Windows代码页并将文件另存为UTF-8。例如,记事本在“另存为”对话框中有一个Encoding
列表。