HTML:
<div>
Está en: <b>
<a href="/">Inicio</a> /
<a href="/proyectos-vivienda-nueva/valle-del-cauca/">Valle Del Cauca</a> /
<a href="/proyectos-vivienda-nueva/cali/">Cali</a> /
<a href="/proyectos-vivienda-nueva/sur/cali/">Zona Sur</a> /
<a href="/proyectos-vivienda-nueva/zona-sur/cali/">Zona Sur</a> /
<a>Los Naranjos Conjunto Campestre</a></b>
</div>
无法获取<a>
代码
<div>
代码
我的代码:
import requests
from bs4 import BeautifulSoup
page = requests.get('https://www.fincaraiz.com.co/oceana-52/barranquilla/proyecto-nuevo-det-1041165.aspx')
soup = BeautifulSoup(page.content, 'html.parser')
first = soup.find('div' , 'breadcrumb left')
link = first.find('div')
a_link = link.findAll('a')
print (a_link)
以上编码仅打印第一个<a>
标记
[<a href="/">Inicio</a>]
以下是上述HTML
所需的输出Valle Del Cauca
Cali
Zona Sur
Zona Sur
我不确定为什么在'/'
标记内<b>
之后没有打印
答案 0 :(得分:1)
您可以使用lxml解析器,html.parser在BS4解析之前规范化/美化实际源。
soup = BeautifulSoup(page.content, 'lxml')