我正在尝试解决python(2.7)中的“简单”问题。 假设我有两个文件:
key.txt - 有一个要搜索的键。 content.txt - 具有Web内容(html文件)
两个文件都保存在utf-8中。 content.txt是混合文件,这意味着它包含非英文字符(web html文件)
我正在尝试检查内容中是否找到key.txt文件中的密钥。 尝试比较文件,因为二进制(字节)不起作用,也尝试解码不起作用。
我也很感激有关如何搜索混合的正则表达式的任何帮助(我的模式由英语和非英语字符构建)
答案 0 :(得分:0)
你应该让python解释器知道你正在使用utf-8编码
在开头添加此声明:
# encoding: utf-8
然后你可以使用 u'yourString'来表示字符串是一个unicode字符串。
示例代码:
text = u'someString'
keyString = u'someKey'
f = re.findall(keyString, text)
您可能需要对字符串使用encode('utf-8')方法,同时对这些字符串执行其他操作