Question

我正在使用python的beautifulsoup

<div class="test1">
   <a href="www.google.com" blur blur~> text </a>
</div>

<div class="test2">
   <a href="www.stackoverflow.com" blur blur~> text </a>
</div>

<div class="test3">
   <a href="www.msn.com" blur blur~> text </a>
</div>

<div class="test4">
   <a href="www.naver.com" blur blur~> text </a>
</div>

<div class="test5">
   <a href="www.ios.com" blur blur~> text </a>
</div>

像这种情况，我想获得一个特定的href信息。例如，当我需要href =＆＃39; www.ios.com＆＃39;时，如何使用班级名称。

HTML文件超过1000个＆＃39; a＆＃39;选择器和包含的URL地址是动态的。

我怎么能得到这个？请回答我T.T

Answer 1

完整的工作示例。

例如，您可以使用select和CSS选择器，例如.class，#id和tag。

from bs4 import BeautifulSoup

content='''<div class="test1">
   <a href="www.google.com" blur blur~> text </a>
</div>

<div class="test2">
   <a href="www.stackoverflow.com" blur blur~> text </a>
</div>

<div class="test3">
   <a href="www.msn.com" blur blur~> text </a>
</div>

<div class="test4">
   <a href="www.naver.com" blur blur~> text </a>
</div>

<div class="test5">
   <a href="www.ios.com" blur blur~> text </a>
</div>'''

soup = BeautifulSoup(content, 'html.parser')

all_a = soup.select('.test5 a')

for a in all_a:
    print(a['href'])

# www.ios.com

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

Answer 2

对于结果中的项目 a = item.find（“ a”） item_href = a ['href'] 打印（item_href）

我怎样才能在beautifulsoup中获得href标签？

2 个答案: