Question

HTML：

<div>
    Está en: <b>     
            <a href="/">Inicio</a> /       
            <a href="/proyectos-vivienda-nueva/valle-del-cauca/">Valle Del Cauca</a> /            
            <a href="/proyectos-vivienda-nueva/cali/">Cali</a> /                         
            <a href="/proyectos-vivienda-nueva/sur/cali/">Zona Sur</a> /                       
            <a href="/proyectos-vivienda-nueva/zona-sur/cali/">Zona Sur</a> /                         
    <a>Los Naranjos Conjunto Campestre</a></b>
</div>

无法获取<a>代码

中的所有<div>代码

我的代码：

import requests
from bs4 import BeautifulSoup
page = requests.get('https://www.fincaraiz.com.co/oceana-52/barranquilla/proyecto-nuevo-det-1041165.aspx')
soup = BeautifulSoup(page.content, 'html.parser')
first = soup.find('div' , 'breadcrumb left')
link = first.find('div')
a_link = link.findAll('a')
print (a_link)

以上编码仅打印第一个<a>标记

[<a href="/">Inicio</a>]

以下是上述HTML

所需的输出

Valle Del Cauca 
Cali 
Zona Sur 
Zona Sur

我不确定为什么在'/'标记内<b>之后没有打印

Answer 1

您可以使用lxml解析器，html.parser在BS4解析之前规范化/美化实际源。

soup = BeautifulSoup(page.content, 'lxml')

无法获取<div>中的完整数据

1 个答案: