当我执行GET请求时(在Python中),我得到了翻译文本。如何获取英文内容?

时间:2017-04-23 14:15:31

标签: python web-scraping request ip-address

我试图通过网络抓取this page来获取乐趣。

脚本运行正常,但一些电影的名称被翻译成罗马尼亚语(例如,&#34;美女和野兽&#34; 是< em>&#34; Frumoasa si Bestia&#34; )。

我猜测服务器正在向我发送请求的内容,具体取决于我的IP。

但是,在我的浏览器中,我只看到英文名称,无论我使用我的IP还是通过浏览器的扩展程序激活VPN。这可能是因为浏览器的语言设置为英语并且翻译选项已关闭。

我的问题是:如何用英语获取所有名字?

我可以在GET请求中指定一些参数吗?

import requests
page = requests.get(some_URL)

我还在考虑使用服务器VPN(不仅仅是浏览器扩展),但是我在Lubuntu上运行,并且在安装免费VPN(帐户等等)方面似乎很头疼

如果有帮助,我使用Jupyter Notebook进行编码。

1 个答案:

答案 0 :(得分:4)

我猜这个网站是基于浏览器语言提供的。尝试根据请求进行设置:

import requests

url = r"http://www.imdb.com/search/title?release_date=2017&page=1&ref_=adv_nxt"
headers = {"Accept-Language": "en-US,en;q=0.5"}
r = requests.get(url, headers=headers)
顺便说一下。检查imdb web scrape的政策。