用Beautful汤获取特定的div标签

时间:2017-04-29 13:45:08

标签: python html bs4

通常我只是通过类名调用div,但它并不是唯一的。 div标签的唯一唯一唯一标识是" data-sc-replace "在div之后。这是源代码的缩短示例

<div data-sc-replace data-sc-slot="1234" class = "inlineblock" data-sc-params="{'magnet': 'magnet:?......'extension': 'epub', 'stream': '' }"></div>

我将如何称呼&#34; data-sc-replace&#34;如果它没有附加到课程或身份证上?

这是我的代码

import requests
from bs4 import BeautifulSoup

 url_to_scrape = "http://example.com"
 r = requests.get(url_to_scrape)
 soup = BeautifulSoup(r.text, "html5lib")
 list = soup.findAll('div', {'class':'inlineblock'})

 print(list)

 # list = soup.findAll("div", "data-sc-params")
 # list = soup.find('data-sc-replace')
 # list = soup.find('data-sc-params')
 # list = soup.find('div', {'class':'inlineblock'}, 'data-sc-params')

2 个答案:

答案 0 :(得分:0)

使用CSS查询选择器。查找具有divs属性的所有data-sc-replace

result = soup.select('div[data-sc-replace]')

答案 1 :(得分:0)

该独特标记似乎是没有价值的HTML属性。所以试试这个:

soup.find('div', attrs = {'data-sc-replace': ''})
# or use find_all() to get all such div containers