我必须访问此网址:http://tinyurl.com/3ypvx24并从2003年到2013年下载每个pdf文件。正如您所看到的,当您点击某个数字时,该链接会将您带到数字问题,然后您必须点击每张纸去另一个网址,最后下载pdf。非常讨厌。
我可以更轻松地完成这项工作吗?
我发现只有这个网址:/REIS/jsp/REIS.jsp?opcion=articulo&ktitulo=1967&autor=我只需更改数字即可访问包含pdf的最后一个网址( 1967年的例子)。
谢谢!
答案 0 :(得分:1)
您可以使用库urllib2,pycurl或mechanize来自动执行此过程。这是一个漫长的过程,你必须自己写这个: - )
尝试Google使用这些库,并检查它们是如何从Python代码中使用的。