(在这里完成网页报废) 我试图使用python从这个网页上抓取PDF:
http://pesquisa.in.gov.br/imprensa/jsp/visualiza/index.jsp?jornal=3&pagina=1&data=31/03/1993
问题是上面的URL指向查看器(带有日期页面参数),而不是PDF文件。我试图检查html代码直接查看PDF的URL,但不能。
有关如何找到正确的URL并实现在python中下载它们的方法的任何帮助吗?
编辑: 我稍后会将其概括为其他日期和页面,可以通过在此处搜索相关时段找到完整的日页链接列表:http://portal.imprensanacional.gov.br/