我有一个网址列表,其中包含所有相同的锚点“查看页面”以及其他类型的网址:
<a href="url1" target="_blank">view page</a>
<a href="url2" target="_blank">view page</a>
有没有办法用这个特定的锚文本提取所有网址?
谢谢
答案 0 :(得分:0)
要查找包含文本视图页的链接,您可以使用find_all('a', text='view page')
然后循环遍历结果集并从中提取网址:
from bs4 import BeautifulSoup
soup = BeautifulSoup("""<a href="url1" target="_blank">view page</a>
<a href="url2" target="_blank">view page</a>
<a href="url2" target="_blank"></a>""", "html.parser")
[a['href'] for a in soup.find_all('a', text='view page')]
# [u'url1', u'url2']