使用beautifulSoup从没有类的标签中刮取

时间:2017-05-26 11:55:17

标签: python web-scraping beautifulsoup

如果我想从锚标记中的href属性和字符串“Horizo​​ntal Zero Dawn”中删除链接。

由于锚标签没有自己的类,因此整个源代码中有更多锚标记。

使用beautifulSoup刮取我需要的数据,我该怎么办?

<div class="prodName">
 <a href="/product.php?sku=123;name=Horizon Zero Dawn">Horizon Zero Dawn</a></div>

1 个答案:

答案 0 :(得分:4)

锚标签没有自己的类并不重要。通过查找父div,然后找到具有相应href属性和文本的锚点,我们可以提取所需的两个值:

from bs4 import BeautifulSoup

page = '<div class="prodName"><a href="/product.php?sku=123;name=Horizon Zero Dawn">Horizon Zero Dawn</a></div>'

soup = BeautifulSoup(page)

div = soup.find('div', {'class': 'prodName'})
a = div.find('a', {'href': True}, text='Horizon Zero Dawn')

print a['href']
print a.get_text()

打印:

/product.php?sku=123;name=Horizon Zero Dawn
Horizon Zero Dawn

编辑:

评论后更新。如果页面中有多个div元素,则需要循环遍历它们并找到每个元素中存在的所有a元素,如下所示:

import requests
from bs4 import BeautifulSoup

url ='https://in.webuy.com/product.php?scid=1'
source_code = requests.get(url)
plain_text = source_code.text
soup = BeautifulSoup(plain_text,'html.parser')
for div in soup.findAll('div',{'class':'prodName'}):
    a = div.findAll('a')
    for link in a:
        href = link.get('href')
        print(href)