使用python进行多页的Web报废

时间:2017-04-28 17:02:39

标签: python pandas beautifulsoup

我有一个beautifulsoup解析器来获取所有html内容。如何在多个页面上废弃网页。喜欢, myurl =" https://www.mybanktracker.com/ABC-Bank/Reviews" 网址有20个页面像 https://www.mybanktracker.com/ABC-Bank/Reviews/pages/1 https://www.mybanktracker.com/ABC-Bank/Reviews/pages/2等等。  如何将所有页面提取到一个页面?或者其他更简单的方法吗?

1 个答案:

答案 0 :(得分:1)

我一直在研究以https://www.mybanktracker.com/TD-Bank/Reviews开头的系列网页。第一页顶部的格式与第二页和后续页面的格式略有不同。因此,我将假设您正在安排解析所有页面,以便捕获“最新评论”标题下方的信息。

我建议您在while循环中处理页面。评论的页数很可能因银行而异。而不是试图恢复页面数量,你可以继续请求页面,直到你得到一个空页面。 (我发现本系列中对“第52页”的请求会产生一个没有评论的页面。)这是一些伪代码。

URL = https://www.mybanktracker.com/TD-Bank/Reviews
pageNumber = 1
while True:
    fetch, parse and store information from one page
    if no reviews found in page then break
    pageNumber += 1
    URL = https://www.mybanktracker.com/TD-Bank/Reviews/page/pageNumber