我正在尝试使用BS4进行一些Web抓取。
到目前为止,我已经使用提取了<a>
urls = [item for item in soup.select('h4 a')]
但是,我只想拥有ID从哪个条目开始的网址。
<a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a>
我尝试过item.id
,但是它不起作用。
我想念什么?
答案 0 :(得分:2)
将re
模块与id
一起使用。
方法如下:
from bs4 import BeautifulSoup
import re
if __name__ == "__main__":
html = '<a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a>'
soup = BeautifulSoup(html, 'html.parser')
print(soup.find('a', id=re.compile('^entry_')))
输出:
<a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a>