Web Scraper:我需要帮助来拉出属性之间的文本...任何帮助将不胜感激

时间:2020-09-21 16:59:18

标签: python html css web-scraping beautifulsoup

链接= https://www.imdb.com/search/title/?title_type=video_game&amp&sort=user_rating,desc&amp&after=1&amp&ref_=adv_nxt

我的目标

我需要在每个页面上收集所有视频游戏标题,类型,描述,类型和发行年份。

我的问题 https://www.imdb.com/search/title/?title_type=video_game&sort=user_rating,desc&start=9951&ref_=adv_nxt

总游戏数= 26,215

在下一页迭代中,“开始= 9951”更改为“之后= WzUuNSwidHQ4NjcxMDM2IiwxMDAwMV0%3D”

我本来打算循环的:pages = np.arange(1,total_games,50),每50个条目从1到26215的每个页面,但是后来我偶然发现了这个问题。

HTML: after = WzUuNSwidHQxODAxMDU0IiwxMDA1MV0%3D &ref_ = adv_nxt” class =“ lister-page-next下一页” “>下一个»

如何取出href链接的一部分并添加到整个链接中进行循环?

结果:

“ https://www.imdb.com/search/title/?title_type=video_game&sort=user_rating,desc&” + “之后= WzUuNSwidHQ4NjcxMDM2IiwxMDAwMV0%3D” +“&ref_ = adv_nxt”

粗体:这是我要在每页上抓取的HREF的一部分,以迭代到下一页/这是在发生变化的href内。

任何解决方案将不胜感激!

1 个答案:

答案 0 :(得分:0)

您可以省去头痛,只需检查HTML中是否存在“下一步”按钮。如果是这样,您只需提取href并点击链接,否则您就到达了最后一页。

假设您正在使用BeautifulSoup,并且已经准备好

ax