我有一个beautifulsoup解析器来获取所有html内容。如何在多个页面上废弃网页。喜欢, myurl =" https://www.mybanktracker.com/ABC-Bank/Reviews" 网址有20个页面像 https://www.mybanktracker.com/ABC-Bank/Reviews/pages/1 https://www.mybanktracker.com/ABC-Bank/Reviews/pages/2等等。 如何将所有页面提取到一个页面?或者其他更简单的方法吗?
答案 0 :(得分:1)
我一直在研究以https://www.mybanktracker.com/TD-Bank/Reviews开头的系列网页。第一页顶部的格式与第二页和后续页面的格式略有不同。因此,我将假设您正在安排解析所有页面,以便捕获“最新评论”标题下方的信息。
我建议您在while
循环中处理页面。评论的页数很可能因银行而异。而不是试图恢复页面数量,你可以继续请求页面,直到你得到一个空页面。 (我发现本系列中对“第52页”的请求会产生一个没有评论的页面。)这是一些伪代码。
URL = https://www.mybanktracker.com/TD-Bank/Reviews
pageNumber = 1
while True:
fetch, parse and store information from one page
if no reviews found in page then break
pageNumber += 1
URL = https://www.mybanktracker.com/TD-Bank/Reviews/page/pageNumber