我是Python的初学者,并尝试使用BeautifulSoup进行爬网。并尝试抓取一个网站来收集产品信息。
pr_url = soup.findAll("li", {"class", "_3FUicfNemK"})
pr_url
与使用BeautifulSoup进行的其他爬网代码完全相同。 但是,即使我写下正确的组件,问题也没解决。
所以我认为是主机阻止了产品区域,使其不被抓取。 因为该区域以外的每个元素都是可爬网的。
您知道如何抓取这个受阻区域吗? 网站网址是: https://shopping.naver.com/living/homeliving/category?menu=10004487&sort=POPULARITY
谢谢您的评论!
答案 0 :(得分:1)
请注意,当您第一次加载页面时,如何加载网站的轮廓,但是加载产品要花一些时间?这是因为该站点正在请求将其余内容加载到后台。此内容未被阻止,稍后只需加载即可:)
这里有2个选项...
1)找出后台请求,并将其传递给beautifulsoup。使用Chrome开发者工具的“网络”标签,我可以看到对产品的要求是...
应该能够在这里猜测对查询字符串的调整并使用它。
2)使用Selenium之类的工具与浏览器进行交互,并将为您执行任何JavaScript,因此您不必弄清这方面的情况。如果您是新手,那么这里的网络技术学习曲线可能会更少。