使用python抓取嵌套标签

时间:2021-06-10 06:57:36

标签: python web-scraping screen-scraping

我知道这类问题经常出现,但我一直在浏览,并没有看到类似的问题。

<ul class="text-lg mb-2 md:grid grid-cols-2 lg:block">
  <li>
   <dl class="not-italic text-lg mt-5">
    <dt>John Smith</dt>
    <dd>Branch Office Administrator</dd>
   </dl>
  </li>
</ul>

假设我想从 dd 中提取数据 Branch Office Administrator,我使用了以下内容:

import pandas as pd
import requests
from bs4 import BeautifulSoup

job_title = soup.find_all("dl", {'class': 'not-italic text-lg mt-5'})
comp_info = pd.DataFrame()
cleaned_id_text = []
for i in job_title.find_all('dd'):
    cleaned_id_text.append(i.text)
comp_info['Attribute'] = cleaned_id_text
print(comp_info)
sys.exit()

我是 Python 新手,所以需要一些帮助

0 个答案:

没有答案