通过BeautifulSoup进行网络抓取

时间:2020-04-19 20:17:09

标签: python html web-scraping beautifulsoup

我刚开始使用beautifulSoup并有一个问题;感谢您的帮助:

from bs4 import BeautifulSoup as soup
import requests

URL = 'https://www.kbb.com/car-values/'
page = requests.get(URL)
soup1 =  soup(page.content, 'html-parser')

print(soup1.prettify())

同时,我在单独的浏览器中转到URL并检查页面以获取页面的HTML版本以建立模式。 我发现了两种可以满足我需要的独立模式

yyyy1

yyyy2

P.S。 xxxx1,xxxx2,yyyy1和yyyy2只是字符串

我返回到prettify()输出并搜索模式xxxx1,我找到了它,但是当我搜索模式xxxx2时,我找不到它了吗? 似乎汤对象在HTML页面中不包含所有信息?还是我查看的HTML页面不正确? 我无法猜测我做错了什么以及如何正确做?

谢谢

1 个答案:

答案 0 :(得分:0)

最初需要进行修改以运行您的代码,然后将“ html-parser”更改为“ html.parser”。修复了 bs4.FeatureNotFound:找不到具有您请求的功能的树生成器:html-parser。您需要安装解析器库吗?

在本地尝试我的代码时,我得到:

Access Denied
You don't have permission to access "http://www.kbb.com/" on this server.

Reference #18.afe17b5c.1587328194.c07350f 

在某些国家/地区有限制吗?