Question

我的目标

我需要在每个页面上收集所有视频游戏标题，类型，描述，类型和发行年份。

我的问题 https://www.imdb.com/search/title/?title_type=video_game&sort=user_rating,desc&start=9951&ref_=adv_nxt

总游戏数= 26,215

在下一页迭代中，“开始= 9951”更改为“之后= WzUuNSwidHQ4NjcxMDM2IiwxMDAwMV0％3D”

我本来打算循环的：pages = np.arange（1，total_games，50），每50个条目从1到26215的每个页面，但是后来我偶然发现了这个问题。

如何取出href链接的一部分并添加到整个链接中进行循环？

结果：

“ https://www.imdb.com/search/title/?title_type=video_game&sort=user_rating,desc&” + “之后= WzUuNSwidHQ4NjcxMDM2IiwxMDAwMV0％3D” +“＆ref_ = adv_nxt”

粗体：这是我要在每页上抓取的HREF的一部分，以迭代到下一页/这是在发生变化的href内。

任何解决方案将不胜感激！

Answer 1

您可以省去头痛，只需检查HTML中是否存在“下一步”按钮。如果是这样，您只需提取href并点击链接，否则您就到达了最后一页。

假设您正在使用BeautifulSoup，并且已经准备好汤：

ax