Question

我正在尝试使用BS4进行一些Web抓取。

到目前为止，我已经使用提取了<a>

urls = [item for item in soup.select('h4 a')]

但是，我只想拥有ID从哪个条目开始的网址。

<a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a>

我尝试过item.id，但是它不起作用。

我想念什么？

Answer 1

将re模块与id一起使用。
方法如下：

from bs4 import BeautifulSoup
import re

if __name__ == "__main__":
    html = '<a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a>'
    soup = BeautifulSoup(html, 'html.parser')

    print(soup.find('a', id=re.compile('^entry_')))

输出：

<a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a>

使用python

1 个答案: