Question

我试图从一个相当大的服装网站页面中提取产品信息，但汤只出现在一个任意截止点上刮掉html文档的下半部分，所以我感兴趣的数据实际上并不在我的汤里。我已经在另一个网站上试过了它并且工作正常，所以我认为它是针对特定网站的。

这是我的代码：

from bs4 import BeautifulSoup
import requests

r = requests.get("https://www.pullandbear.com/rs/man/sale-c1030036006.html")
soup = BeautifulSoup(r.content, "html.parser")
print(soup.prettify())

Answer 1

如其中一条评论中所述，您尝试获取的HTML将添加在浏览器上运行的JavaScript。

我建议您使用非常受欢迎的Requests-HTML作者创建的此程序包requests。

from requests_html import HTMLSession

session = HTMLSession()
r = session.get('https://www.pullandbear.com/rs/man/sale-c1030036006.html')
r.html.render()

print(r.html.html)

Python Beautiful Soup只抓取页面的下半部分

1 个答案: