Question

我有一个beautifulsoup解析器来获取所有html内容。如何在多个页面上废弃网页。喜欢， myurl =＆＃34; https://www.mybanktracker.com/ABC-Bank/Reviews＆＃34; 网址有20个页面像 https://www.mybanktracker.com/ABC-Bank/Reviews/pages/1 https://www.mybanktracker.com/ABC-Bank/Reviews/pages/2等等。如何将所有页面提取到一个页面？或者其他更简单的方法吗？

Answer 1

我一直在研究以https://www.mybanktracker.com/TD-Bank/Reviews开头的系列网页。第一页顶部的格式与第二页和后续页面的格式略有不同。因此，我将假设您正在安排解析所有页面，以便捕获“最新评论”标题下方的信息。

我建议您在while循环中处理页面。评论的页数很可能因银行而异。而不是试图恢复页面数量，你可以继续请求页面，直到你得到一个空页面。（我发现本系列中对“第52页”的请求会产生一个没有评论的页面。）这是一些伪代码。

URL = https://www.mybanktracker.com/TD-Bank/Reviews
pageNumber = 1
while True:
    fetch, parse and store information from one page
    if no reviews found in page then break
    pageNumber += 1
    URL = https://www.mybanktracker.com/TD-Bank/Reviews/page/pageNumber

使用python进行多页的Web报废

1 个答案: