我正在使用python的beautifulsoup
<div class="test1">
<a href="www.google.com" blur blur~> text </a>
</div>
<div class="test2">
<a href="www.stackoverflow.com" blur blur~> text </a>
</div>
<div class="test3">
<a href="www.msn.com" blur blur~> text </a>
</div>
<div class="test4">
<a href="www.naver.com" blur blur~> text </a>
</div>
<div class="test5">
<a href="www.ios.com" blur blur~> text </a>
</div>
像这种情况,我想获得一个特定的href信息。例如,当我需要href =&#39; www.ios.com&#39;时,如何使用班级名称。
HTML文件超过1000个&#39; a&#39;选择器和包含的URL地址是动态的。
我怎么能得到这个?请回答我T.T
答案 0 :(得分:1)
完整的工作示例。
例如,您可以使用select
和CSS选择器,例如.class
,#id
和tag
。
from bs4 import BeautifulSoup
content='''<div class="test1">
<a href="www.google.com" blur blur~> text </a>
</div>
<div class="test2">
<a href="www.stackoverflow.com" blur blur~> text </a>
</div>
<div class="test3">
<a href="www.msn.com" blur blur~> text </a>
</div>
<div class="test4">
<a href="www.naver.com" blur blur~> text </a>
</div>
<div class="test5">
<a href="www.ios.com" blur blur~> text </a>
</div>'''
soup = BeautifulSoup(content, 'html.parser')
all_a = soup.select('.test5 a')
for a in all_a:
print(a['href'])
# www.ios.com
答案 1 :(得分:0)
对于结果中的项目 a = item.find(“ a”) item_href = a ['href'] 打印(item_href)