在查看器框架内抓取PDF

时间:2016-04-12 12:07:58

标签: python pdf web-scraping

(在这里完成网页报废) 我试图使用python从这个网页上抓取PDF:

http://pesquisa.in.gov.br/imprensa/jsp/visualiza/index.jsp?jornal=3&pagina=1&data=31/03/1993

问题是上面的URL指向查看器(带有日期页面参数),而不是PDF文件。我试图检查html代码直接查看PDF的URL,但不能。

有关如何找到正确的URL并实现在python中下载它们的方法的任何帮助吗?

编辑: 我稍后会将其概括为其他日期和页面,可以通过在此处搜索相关时段找到完整的日页链接列表:http://portal.imprensanacional.gov.br/

0 个答案:

没有答案