应用错误收集

使用Python从非网站中提取链接

时间：2015-07-07 17:05:08

标签： python python-3.x hyperlink screen-scraping google-crawlers

我需要从此页面收集PDF文件：http://www.anp.gov.br/?id=532。

我想知道当我无法在HTML源代码中找到链接时，这在Python中是如何实现的。在我通过使用Beautifulsoup和pandas找到这些文件的链接之前。

感谢各种答案！

1 个答案:

答案 0 :(得分：4)

看起来所有pdf链接都在<a>标记中，因此您可以使用BeautifulSoup来抓取这些链接。如果您需要进一步的建议，我建议您参考live example讨论，了解如何完成该任务。

enter image description here