从HTML源代码中删除“数据价格”

时间:2019-05-14 20:54:06

标签: python web-scraping

对于我的大学来说,我想付出一个代价。 元素数据价格包括价格。

我的第一次尝试:

import requests
import bs4
import lxml
import html5lib
from bs4 import BeautifulSoup

source = requests.get('...').text
soup = BeautifulSoup(source, 'lxml')

print(soup.prettify())


summary = soup.find('div', class_='data-price')
print(summary.prettify())

源代码:

div class="c-price-b...ice-block" id="..." data-product-name="Apple&Tree" data-price="xxx" data-categories="ddd" " data-qa="price-block"

是否有可能提取价格?

谢谢!

1 个答案:

答案 0 :(得分:0)

取决于它是否在请求的响应中返回。您可以尝试使用属性选择器

soup.select_one('[data-product-name="Apple&Tree"]')['data-price']

我更愿意尝试使用类,但是我看不到什么是正确的类。

通过将data-product-name="Apple&Tree"select_one一起使用,我假设该属性=值规范的第一个匹配项是所需的。 select可用于返回列表。