我试图通过网络抓取this page来获取乐趣。
脚本运行正常,但一些电影的名称被翻译成罗马尼亚语(例如,&#34;美女和野兽&#34; 是< em>&#34; Frumoasa si Bestia&#34; )。
我猜测服务器正在向我发送请求的内容,具体取决于我的IP。
但是,在我的浏览器中,我只看到英文名称,无论我使用我的IP还是通过浏览器的扩展程序激活VPN。这可能是因为浏览器的语言设置为英语并且翻译选项已关闭。
我的问题是:如何用英语获取所有名字?
我可以在GET
请求中指定一些参数吗?
import requests
page = requests.get(some_URL)
我还在考虑使用服务器VPN(不仅仅是浏览器扩展),但是我在Lubuntu上运行,并且在安装免费VPN(帐户等等)方面似乎很头疼
如果有帮助,我使用Jupyter Notebook进行编码。
答案 0 :(得分:4)
我猜这个网站是基于浏览器语言提供的。尝试根据请求进行设置:
import requests
url = r"http://www.imdb.com/search/title?release_date=2017&page=1&ref_=adv_nxt"
headers = {"Accept-Language": "en-US,en;q=0.5"}
r = requests.get(url, headers=headers)
顺便说一下。检查imdb web scrape的政策。