如何使用此代码获取更多页面?

时间:2019-04-06 17:15:42

标签: python-3.x web-crawler

我制作了python代码,以抓取通过Google新闻中的关键字搜索的新闻文章的内容。

def __init__(self,term):
    self.term = term
    self.url ='https://www.google.com/search?q={0}&source=lnms&tbm=nws'.format(self.term)
    response = requests.get(self.url)

此代码只能获取通过关键字搜索的第一页的内容。我想知道如何更改代码以获取第二,第三甚至更多页面?

1 个答案:

答案 0 :(得分:0)

您可以通过以下方式来实现:将&start=查询参数附加到url,然后放置一个整数,该整数指定搜索页面应开始显示结果的位置。

例如,由于默认页面显示10条结果,因此使用

self.url ='https://www.google.com/search?q={0}&source=lnms&tbm=nws&start=10'.format(self.term)

将显示第二页。

因此,广义结果可能与此类似(您也可以对其进行修改,以便在每次刮刮之后更改页面):

def __init__(self, term, page):
self.term = term
self.subjectivity =0
self.sentiment =0
self.url ='https://www.google.com/search?q={0}&source=lnms&tbm=nws&start={1}'.format(self.term, page * 10)