从<a> tag

时间:2019-05-14 11:01:47

标签: python-3.x web-scraping beautifulsoup

Trying to scrape https://www.pagesjaunes.fr/annuaire/marseille-13/jardinier中提取href后得到#,我有一个分页问题。 下一页的链接存储在标签中。我在[[href']而不是链接

之后得到#
tree = html.fromstring(response.text)
soup = BeautifulSoup(response.text, 'html.parser')
Footer = soup.find(class_='result-footer')
divpagination= Footer.find(class_='pagination')
atag=divpagination.find("a", {"id": "pagination-next"})
print(atag.get('href'))
Output : #

注意:我发出的请求没有Accept-Encoding头,这样服务器就不会压缩要发送的消息

html标记:             iv              

带有beautifulsoup的标签:

上等

1 个答案:

答案 0 :(得分:1)

您可以看到是否在浏览器中检查了页面的源代码(或只是打印了页面),所以此链接使用js进行导航。

标记还有其他(非标准)属性,因此您最终可以尝试对整个项目进行反向工程(检查标记属性值,单击浏览器中的链接,然后与新页面的有效url比较)。

如果它不起作用,那么您将需要一个无头的浏览器和代码来驱动它(硒是规范的python解决方案)。