我试图从一个相当大的服装网站页面中提取产品信息,但汤只出现在一个任意截止点上刮掉html文档的下半部分,所以我感兴趣的数据实际上并不在我的汤里。我已经在另一个网站上试过了它并且工作正常,所以我认为它是针对特定网站的。
这是我的代码:
from bs4 import BeautifulSoup
import requests
r = requests.get("https://www.pullandbear.com/rs/man/sale-c1030036006.html")
soup = BeautifulSoup(r.content, "html.parser")
print(soup.prettify())
答案 0 :(得分:0)
如其中一条评论中所述,您尝试获取的HTML将添加在浏览器上运行的JavaScript。
我建议您使用非常受欢迎的Requests-HTML作者创建的此程序包requests。
from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://www.pullandbear.com/rs/man/sale-c1030036006.html')
r.html.render()
print(r.html.html)