我正在试图抓一个日本网站(下面的一个修剪过的样本):
<html>
<head>
<meta charset="euc-jp">
</head>
<body>
<h3>不審者の出没</h3>
</body>
</html>
我正在尝试使用以下命令获取此html的数据:
response = requests.get(url)
我从h3字段获取数据: 它的unicode价值是这样的:
'\xa4\xaa\xa4\xaa\xa4\xa4\xa4\xbf\'
但是当我从文件或本地wsgi服务器加载此html(尝试使用Django来提供静态html页面)时,我得到:
不審者の出没. It's actual data.
现在我不明白如何解决这个问题?