我正在从nytimes网站上抓取一些新闻。我开始使用nytimes api检索要存储我想要的新闻的URL。其中一些不是文本格式(我需要回溯80年代以前的情况),所以我想下载新闻的pdf。
我有一个nytimes订阅,可以下载pdf,问题是每次访问网页时我都无法登录,我尝试使用请求库进行身份验证,但我无法至。
让我更具体一点:
我想获得以下PDF格式的故事
https://query.nytimes.com/gst/abstract.html?res=9903E7DC1538E732A25752C0A9679C94619FD6CF
我的目标是登录到右上角的按钮,该按钮的html代码如下:
我面临的第一个问题是loggin表单不在原始html中,而是在按下按钮后出现,看起来有点像这样:
我知道我可以通过使用硒来做到这一点,问题是我需要做很多次,我需要抓一堆新闻,并且不想在浏览器中使用它。
是否可以使用库请求登录?也许通过复制调用以获取表单的html?
非常感谢您