使用Python从非网站中提取链接

时间:2015-07-07 17:05:08

标签: python python-3.x hyperlink screen-scraping google-crawlers

我需要从此页面收集PDF文件:http://www.anp.gov.br/?id=532

我想知道当我无法在HTML源代码中找到链接时,这在Python中是如何实现的。在我通过使用Beautifulsoup和pandas找到这些文件的链接之前。

感谢各种答案!

1 个答案:

答案 0 :(得分:4)

看起来所有pdf链接都在<a>标记中,因此您可以使用BeautifulSoup来抓取这些链接。如果您需要进一步的建议,我建议您参考live example讨论,了解如何完成该任务。

enter image description here