BeautifulSoup在div的div中提取数据

时间:2016-10-26 13:53:37

标签: python html web-scraping beautifulsoup linkedin

我想从ul中提取数据,这个ul在div内部等等。我用lxml完成​​了它,但现在我想用漂亮的汤来尝试它

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent': 'Mozilla/5.0'}

url = "https://linkedin.com/company/1005"

r = requests.get(url, headers=headers)
print(r.text)

soup = BeautifulSoup(r.text, 'html.parser')

div = soup.find_all('div', class_="basic-info-description")
print div

enter image description here

2 个答案:

答案 0 :(得分:2)

尝试:

lis_nodiz

答案 1 :(得分:1)

您可以在找到的bs对象上再次使用find(All):

ul = soup.findAll('div', attrs={'class':'basic-info-about'}).find('ul')

上述代码的缺点是,如果第一个div不在html代码中,则会引发错误。更好的是:

divs = soup.findAll(''div', attrs={'class':'basic-info-about'}')
for div in divs:
    ul = div.find('ul')