标签: python python-3.x hyperlink screen-scraping google-crawlers
我需要从此页面收集PDF文件:http://www.anp.gov.br/?id=532。
我想知道当我无法在HTML源代码中找到链接时,这在Python中是如何实现的。在我通过使用Beautifulsoup和pandas找到这些文件的链接之前。
感谢各种答案!
答案 0 :(得分:4)
看起来所有pdf链接都在<a>标记中,因此您可以使用BeautifulSoup来抓取这些链接。如果您需要进一步的建议,我建议您参考live example讨论,了解如何完成该任务。
<a>