在文件python中搜索非英语单词

时间:2013-09-12 19:35:45

标签: python regex unicode utf-8

我正在尝试解决python(2.7)中的“简单”问题。 假设我有两个文件:

key.txt - 有一个要搜索的键。 content.txt - 具有Web内容(html文件)

两个文件都保存在utf-8中。 content.txt是混合文件,这意味着它包含非英文字符(web html文件)

我正在尝试检查内容中是否找到key.txt文件中的密钥。 尝试比较文件,因为二进制(字节)不起作用,也尝试解码不起作用。

我也很感激有关如何搜索混合的正则表达式的任何帮助(我的模式由英语和非英语字符构建)

1 个答案:

答案 0 :(得分:0)

你应该让python解释器知道你正在使用utf-8编码 在开头添加此声明:

# encoding: utf-8

然后你可以使用 u'yourString'来表示字符串是一个unicode字符串。

示例代码:

text = u'someString'
keyString = u'someKey'
f = re.findall(keyString, text)

您可能需要对字符串使用encode('utf-8')方法,同时对这些字符串执行其他操作