使用python

时间:2019-07-03 20:00:15

标签: python beautifulsoup

我正在尝试使用BS4进行一些Web抓取。

到目前为止,我已经使用提取了<a>

urls = [item for item in soup.select('h4 a')]

但是,我只想拥有ID从哪个条目开始的网址。

<a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a>

我尝试过item.id,但是它不起作用。

我想念什么?

1 个答案:

答案 0 :(得分:2)

re模块与id一起使用。
方法如下:

from bs4 import BeautifulSoup
import re

if __name__ == "__main__":
    html = '<a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a>'
    soup = BeautifulSoup(html, 'html.parser')

    print(soup.find('a', id=re.compile('^entry_')))

输出:

<a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a>