无法获取<div>中的完整数据

时间:2017-09-03 15:44:07

标签: python web-scraping beautifulsoup

HTML:

<div>
    Está en: <b>     
            <a href="/">Inicio</a> /       
            <a href="/proyectos-vivienda-nueva/valle-del-cauca/">Valle Del Cauca</a> /            
            <a href="/proyectos-vivienda-nueva/cali/">Cali</a> /                         
            <a href="/proyectos-vivienda-nueva/sur/cali/">Zona Sur</a> /                       
            <a href="/proyectos-vivienda-nueva/zona-sur/cali/">Zona Sur</a> /                         
    <a>Los Naranjos Conjunto Campestre</a></b>
</div>

无法获取<a>代码

中的所有<div>代码

我的代码:

import requests
from bs4 import BeautifulSoup
page = requests.get('https://www.fincaraiz.com.co/oceana-52/barranquilla/proyecto-nuevo-det-1041165.aspx')
soup = BeautifulSoup(page.content, 'html.parser')
first = soup.find('div' , 'breadcrumb left')
link = first.find('div')
a_link = link.findAll('a')
print (a_link)

以上编码仅打印第一个<a>标记

[<a href="/">Inicio</a>]

以下是上述HTML

所需的输出
Valle Del Cauca 
Cali 
Zona Sur 
Zona Sur

我不确定为什么在'/'标记内<b>之后没有打印

1 个答案:

答案 0 :(得分:1)

您可以使用lxml解析器,html.parser在BS4解析之前规范化/美化实际源。

soup = BeautifulSoup(page.content, 'lxml')