我怎样才能在beautifulsoup中获得href标签?

时间:2016-01-22 03:34:26

标签: python parsing beautifulsoup

我正在使用python的beautifulsoup

<div class="test1">
   <a href="www.google.com" blur blur~> text </a>
</div>

<div class="test2">
   <a href="www.stackoverflow.com" blur blur~> text </a>
</div>

<div class="test3">
   <a href="www.msn.com" blur blur~> text </a>
</div>

<div class="test4">
   <a href="www.naver.com" blur blur~> text </a>
</div>

<div class="test5">
   <a href="www.ios.com" blur blur~> text </a>
</div>
像这种情况,我想获得一个特定的href信息。例如,当我需要href =&#39; www.ios.com&#39;时,如何使用班级名称。

HTML文件超过1000个&#39; a&#39;选择器和包含的URL地址是动态的。

我怎么能得到这个?请回答我T.T

2 个答案:

答案 0 :(得分:1)

完整的工作示例。

例如,您可以使用select和CSS选择器,例如.class#idtag

from bs4 import BeautifulSoup

content='''<div class="test1">
   <a href="www.google.com" blur blur~> text </a>
</div>

<div class="test2">
   <a href="www.stackoverflow.com" blur blur~> text </a>
</div>

<div class="test3">
   <a href="www.msn.com" blur blur~> text </a>
</div>

<div class="test4">
   <a href="www.naver.com" blur blur~> text </a>
</div>

<div class="test5">
   <a href="www.ios.com" blur blur~> text </a>
</div>'''

soup = BeautifulSoup(content, 'html.parser')

all_a = soup.select('.test5 a')

for a in all_a:
    print(a['href'])

# www.ios.com

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

答案 1 :(得分:0)

对于结果中的项目   a = item.find(“ a”)   item_href = a ['href']   打印(item_href)