html get请求不提供包含umlaute / non ascii字符的标记

时间:2016-01-19 21:31:35

标签: python python-requests urllib2

我正在python中执行get请求

r = requests.get('http://www.lidl.de/de/billiger')
html_file = r.text

此网站显示现在更便宜的当前产品。 就像你在网页上看到的那样,产品5和6有德国变形金刚(“ä”)

如果您查看变量html_file,您将看到完全缺少这两个条目。 如果我用firefox下载该文件并直接处理该文件,我会在其中输入条目。

所以requests以及urllib2以某种方式删除这些条目。编码是UTF-8,就像我浏览该网站时发出的get-request一样。

任何人都知道如何解决这个问题?

此致

0 个答案:

没有答案