Question

我正在尝试测试给定的字符串是否在片假名范围内。

我尝试了这里提出的解决方案：Python and Unicode Blocks for regex。但是，我的输出仍然是＃34;无＆＃34;。我在这里失踪了什么？

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
print re.search(u'[\u30A0-\u30FF]', u'カタカ')

Answer 1

您的问题是您正在使用Windows。您指定源文件是UTF-8，但Windows不使用UTF-8 - 它使用各种代码页，具体取决于Windows本身的语言版本和设置。

许多编辑器都可以覆盖Windows代码页并将文件另存为UTF-8。例如，记事本在“另存为”对话框中有一个Encoding列表。