我正在尝试从网站上收集一些项目的数据,并且我想使用Python来自动执行此操作。例如,假设我要查找北萨米语的所有Wikipedia页面。在浏览器中,我只需输入Google
await
,Google声称找到了13,000个我想收集其URL的页面。我对编程还很陌生,我看过很多以前的问题,但找不到适合我的答案。
起初我以为我会使用Google的自定义搜索引擎API。我使它起作用,但显然它只返回前100个结果(分10个结果),并且没有办法改变这一点,甚至不付钱给Google(您可以每天增加查询数量,但不能增加结果数量)
然后我想我只会像浏览器一样请求搜索结果,并从HTML获取URL。我确实可以用
site:se.wikipedia.org/wiki/
我可以通过更改import urllib.request
url = 'https://www.google.com/search?q=site%3Ase.wikipedia.org%2Fwiki%2F&start=0'
my_header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'}
req = urllib.request.Request(url, headers=my_header)
content = urllib.request.urlopen(req).read()
属性来进行迭代。但是,这些结果最多只能显示到第31页(约300个结果),而不是Google声称找到的13,000个结果。在浏览器中也是如此。当然有300多个页面。有没有办法进行更彻底的搜索?