Python Beautiful Soup只抓取页面的下半部分

时间:2018-02-19 22:02:36

标签: python web-scraping beautifulsoup

我试图从一个相当大的服装网站页面中提取产品信息,但汤只出现在一个任意截止点上刮掉html文档的下半部分,所以我感兴趣的数据实际上并不在我的汤里。我已经在另一个网站上试过了它并且工作正常,所以我认为它是针对特定网站的。

这是我的代码:

from bs4 import BeautifulSoup
import requests

r = requests.get("https://www.pullandbear.com/rs/man/sale-c1030036006.html")
soup = BeautifulSoup(r.content, "html.parser")
print(soup.prettify())

1 个答案:

答案 0 :(得分:0)

如其中一条评论中所述,您尝试获取的HTML将添加在浏览器上运行的JavaScript。

我建议您使用非常受欢迎的Requests-HTML作者创建的此程序包requests

from requests_html import HTMLSession

session = HTMLSession()
r = session.get('https://www.pullandbear.com/rs/man/sale-c1030036006.html')
r.html.render()

print(r.html.html)