我的目标
我需要在每个页面上收集所有视频游戏标题,类型,描述,类型和发行年份。
总游戏数= 26,215
在下一页迭代中,“开始= 9951”更改为“之后= WzUuNSwidHQ4NjcxMDM2IiwxMDAwMV0%3D”
我本来打算循环的:pages = np.arange(1,total_games,50),每50个条目从1到26215的每个页面,但是后来我偶然发现了这个问题。
HTML: after = WzUuNSwidHQxODAxMDU0IiwxMDA1MV0%3D &ref_ = adv_nxt” class =“ lister-page-next下一页” “>下一个»
如何取出href链接的一部分并添加到整个链接中进行循环?
结果:
“ https://www.imdb.com/search/title/?title_type=video_game&sort=user_rating,desc&” + “之后= WzUuNSwidHQ4NjcxMDM2IiwxMDAwMV0%3D” +“&ref_ = adv_nxt” >
粗体:这是我要在每页上抓取的HREF的一部分,以迭代到下一页/这是在发生变化的href内。
任何解决方案将不胜感激!
答案 0 :(得分:0)
您可以省去头痛,只需检查HTML中是否存在“下一步”按钮。如果是这样,您只需提取href并点击链接,否则您就到达了最后一页。
假设您正在使用BeautifulSoup,并且已经准备好汤:
ax