如何使用BeautifulSoup查找指向特定域的页面中的所有链接?
答案 0 :(得分:8)
使用SoupStrainer,
from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
# Find all links
links = SoupStrainer('a')
[tag for tag in BeautifulSoup(doc, parseOnlyThese=links)]
linkstodomain = SoupStrainer('a', href=re.compile('example.com/'))
编辑:来自官方文档的修改示例。