如何使用BeautifulSoup查找指向特定域的页面中的所有链接?

时间:2010-01-28 00:10:46

标签: python beautifulsoup

如何使用BeautifulSoup查找指向特定域的页面中的所有链接?

1 个答案:

答案 0 :(得分:8)

使用SoupStrainer,

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re

# Find all links
links = SoupStrainer('a')
[tag for tag in BeautifulSoup(doc, parseOnlyThese=links)]

linkstodomain = SoupStrainer('a', href=re.compile('example.com/'))

编辑:来自官方文档的修改示例。