Question

我试图通过网络抓取this page来获取乐趣。

脚本运行正常，但一些电影的名称被翻译成罗马尼亚语（例如，＆＃34;美女和野兽＆＃34; 是< em>＆＃34; Frumoasa si Bestia＆＃34; ）。

我猜测服务器正在向我发送请求的内容，具体取决于我的IP。

但是，在我的浏览器中，我只看到英文名称，无论我使用我的IP还是通过浏览器的扩展程序激活VPN。这可能是因为浏览器的语言设置为英语并且翻译选项已关闭。

我的问题是：如何用英语获取所有名字？

我可以在GET请求中指定一些参数吗？

import requests
page = requests.get(some_URL)

我还在考虑使用服务器VPN（不仅仅是浏览器扩展），但是我在Lubuntu上运行，并且在安装免费VPN（帐户等等）方面似乎很头疼

如果有帮助，我使用Jupyter Notebook进行编码。

Answer 1

我猜这个网站是基于浏览器语言提供的。尝试根据请求进行设置：

import requests

url = r"http://www.imdb.com/search/title?release_date=2017&page=1&ref_=adv_nxt"
headers = {"Accept-Language": "en-US,en;q=0.5"}
r = requests.get(url, headers=headers)

顺便说一下。检查imdb web scrape的政策。

当我执行GET请求时（在Python中），我得到了翻译文本。如何获取英文内容？

1 个答案: