我制作了python代码,以抓取通过Google新闻中的关键字搜索的新闻文章的内容。
def __init__(self,term):
self.term = term
self.url ='https://www.google.com/search?q={0}&source=lnms&tbm=nws'.format(self.term)
response = requests.get(self.url)
此代码只能获取通过关键字搜索的第一页的内容。我想知道如何更改代码以获取第二,第三甚至更多页面?
答案 0 :(得分:0)
您可以通过以下方式来实现:将&start=
查询参数附加到url,然后放置一个整数,该整数指定搜索页面应开始显示结果的位置。
例如,由于默认页面显示10条结果,因此使用
self.url ='https://www.google.com/search?q={0}&source=lnms&tbm=nws&start=10'.format(self.term)
将显示第二页。
因此,广义结果可能与此类似(您也可以对其进行修改,以便在每次刮刮之后更改页面):
def __init__(self, term, page):
self.term = term
self.subjectivity =0
self.sentiment =0
self.url ='https://www.google.com/search?q={0}&source=lnms&tbm=nws&start={1}'.format(self.term, page * 10)