Question

我刚开始使用beautifulSoup并有一个问题；感谢您的帮助：

from bs4 import BeautifulSoup as soup
import requests

URL = 'https://www.kbb.com/car-values/'
page = requests.get(URL)
soup1 =  soup(page.content, 'html-parser')

print(soup1.prettify())

同时，我在单独的浏览器中转到URL并检查页面以获取页面的HTML版本以建立模式。我发现了两种可以满足我需要的独立模式

yyyy1

和

yyyy2

P.S。 xxxx1，xxxx2，yyyy1和yyyy2只是字符串

我返回到prettify（）输出并搜索模式xxxx1，我找到了它，但是当我搜索模式xxxx2时，我找不到它了吗？似乎汤对象在HTML页面中不包含所有信息？还是我查看的HTML页面不正确？我无法猜测我做错了什么以及如何正确做？

谢谢

Answer 1

最初需要进行修改以运行您的代码，然后将“ html-parser”更改为“ html.parser”。修复了 bs4.FeatureNotFound：找不到具有您请求的功能的树生成器：html-parser。您需要安装解析器库吗？

在本地尝试我的代码时，我得到：

Access Denied
You don't have permission to access "http://www.kbb.com/" on this server.

Reference #18.afe17b5c.1587328194.c07350f

在某些国家/地区有限制吗？

通过BeautifulSoup进行网络抓取

1 个答案: