Question

我正在尝试解决python（2.7）中的“简单”问题。假设我有两个文件：

key.txt - 有一个要搜索的键。 content.txt - 具有Web内容（html文件）

两个文件都保存在utf-8中。 content.txt是混合文件，这意味着它包含非英文字符（web html文件）

我正在尝试检查内容中是否找到key.txt文件中的密钥。尝试比较文件，因为二进制（字节）不起作用，也尝试解码不起作用。

我也很感激有关如何搜索混合的正则表达式的任何帮助（我的模式由英语和非英语字符构建）

Answer 1

你应该让python解释器知道你正在使用utf-8编码在开头添加此声明：

# encoding: utf-8

然后你可以使用 u'yourString'来表示字符串是一个unicode字符串。

示例代码：

text = u'someString'
keyString = u'someKey'
f = re.findall(keyString, text)

您可能需要对字符串使用encode（'utf-8'）方法，同时对这些字符串执行其他操作