我有一个python代码,可以从网页中检索一些数据(网页抓取)。
代码的某些点返回以下列表:
<ul class="nav nav--stacked" id="designer-list">
<li>
<h2>
<a class="text-uppercase bold router-link-active" href="/en-ca/cars_all">
All Cars
</a>
</h2>
</li>
<li>
<a href="/en-ca/cars/c1">
<span>
The car c1
</span>
</a>
</li>
<li>
<a href="/en-ca/cars/c2">
<span>
The car c2
</span>
</a>
</li>
</ul>
我正在使用BeautifulSoup
而我只想检索每辆车及其名称的引用(href
)。
在这个例子中,我想检索(/ en-ca / cars / c1)=&gt;(汽车c1)和(/ en-ca / cars / c2)=&gt;(汽车c2)。我想跳过第一个元素(所有汽车)。
我可以使用.find_all('li')
并跳过循环中的第一个元素。
我想知道是否有办法通过BeautifulSoup方法拒绝元素
答案 0 :(得分:3)
你可以这样做,虽然它不是通过BeautifulSoup方法
soup = BeautifulSoup(html, "html.parser")
content = soup.find_all('li')[1:]