Trying to scrape https://www.pagesjaunes.fr/annuaire/marseille-13/jardinier中提取href后得到#,我有一个分页问题。 下一页的链接存储在标签中。我在[[href']而不是链接
之后得到#tree = html.fromstring(response.text)
soup = BeautifulSoup(response.text, 'html.parser')
Footer = soup.find(class_='result-footer')
divpagination= Footer.find(class_='pagination')
atag=divpagination.find("a", {"id": "pagination-next"})
print(atag.get('href'))
Output : #
注意:我发出的请求没有Accept-Encoding头,这样服务器就不会压缩要发送的消息
html标记: iv
带有beautifulsoup的标签:
上等
答案 0 :(得分:1)
您可以看到是否在浏览器中检查了页面的源代码(或只是打印了页面),所以此链接使用js进行导航。
标记还有其他(非标准)属性,因此您最终可以尝试对整个项目进行反向工程(检查标记属性值,单击浏览器中的链接,然后与新页面的有效url比较)。
如果它不起作用,那么您将需要一个无头的浏览器和代码来驱动它(硒是规范的python解决方案)。