使用python中的请求登录nytimes网站

时间:2018-09-09 13:47:44

标签: python login python-requests

我正在从nytimes网站上抓取一些新闻。我开始使用nytimes api检索要存储我想要的新闻的URL。其中一些不是文本格式(我需要回溯80年代以前的情况),所以我想下载新闻的pdf。

我有一个nytimes订阅,可以下载pdf,问题是每次访问网页时我都无法登录,我尝试使用请求库进行身份验证,但我无法至。

让我更具体一点:

我想获得以下PDF格式的故事

https://query.nytimes.com/gst/abstract.html?res=9903E7DC1538E732A25752C0A9679C94619FD6CF

enter image description here

我的目标是登录到右上角的按钮,该按钮的html代码如下:

enter image description here

我面临的第一个问题是loggin表单不在原始html中,而是在按下按钮后出现,看起来有点像这样:

enter image description here

我知道我可以通过使用硒来做到这一点,问题是我需要做很多次,我需要抓一堆新闻,并且不想在浏览器中使用它。

是否可以使用库请求登录?也许通过复制调用以获取表单的html?

非常感谢您

0 个答案:

没有答案