我正在尝试从网页上抓取网址。我正在使用此代码:
from bs4 import BeautifulSoup
import urllib2
url = urllib2.urlopen("http://www.barneys.com/barneys-new-york/men/clothing/shirts/dress/classic#sz=176&pageviewchange=true")
content = url.read()
soup = BeautifulSoup(content)
links=soup.find_all("a", {"class": "thumb-link"})
for link in links:
print (link.get('href'))
但我得到的输出只有48个链接而不是176.我做错了什么?
答案 0 :(得分:2)
所以我所做的就是使用Postmans拦截器功能查看网站每次加载下一套36件衬衫时所做的调用。然后从那里复制代码中的调用。你不能一次性转储所有176个项目,所以我在网站上复制了36个项目。
{{1}}