使用美丽汤时找不到html标签

时间:2020-05-01 05:31:11

标签: html web-scraping beautifulsoup

我正在尝试更加熟悉网络抓取。我碰到了https://www.freecodecamp.org/news/how-to-scrape-websites-with-python-and-beautifulsoup-5946935d93fe/这个网站,其中介绍了使用Beautiful Soup进行网页抓取的过程。在演示之后,我尝试使用提供的代码刮擦标准普尔股票指数的价值和名称,但这没有用。我认为有些变化,例如价格标签不再像作者在网站上所写的那样在h1以下。当我检查网页以查看html代码时,可以看到所有使用的标记。我发现没有从Bloomberg网站上删除某些html代码。我将网络爬虫收集的内容打印到控制台上。

代码:

import urllib2
from bs4 import BeautifulSoup
quote_page = "http://www.bloomberg.com/quote/SPX:IND"
page = urllib2.urlopen(quote_page)
soup = BeautifulSoup(page, 'html.parser')
print (soup)
name_box = soup.find("h1", attrs={"class": "price"})
name = name_box.text.strip() #get 'Nonetype object has no attribute text' here
print(name)

我在显示代码在堆栈上打印时遇到了麻烦,但是基本上有些标签不存在。我想知道为什么会这样,以及如何实际抓取该网站。当我检查网站时,可以找到要查找的标签:

<span class="priceText__1853e8a5">2,912.43</span>

但是使用我拥有的代码,我似乎无法获得此标签。

0 个答案:

没有答案
相关问题