从Python查找特定网站上的页面

时间:2018-12-23 14:23:51

标签: python web search

我正在尝试从网站上收集一些项目的数据,并且我想使用Python来自动执行此操作。例如,假设我要查找北萨米语的所有Wikipedia页面。在浏览器中,我只需输入Google

await

,Google声称找到了13,000个我想收集其URL的页面。我对编程还很陌生,我看过很多以前的问题,但找不到适合我的答案。

起初我以为我会使用Google的自定义搜索引擎API。我使它起作用,但显然它只返回前100个结果(分10个结果),并且没有办法改变这一点,甚至不付钱给Google(您可以每天增加查询数量,但不能增加结果数量)

然后我想我只会像浏览器一样请求搜索结果,并从HTML获取URL。我确实可以用

site:se.wikipedia.org/wiki/

我可以通过更改import urllib.request url = 'https://www.google.com/search?q=site%3Ase.wikipedia.org%2Fwiki%2F&start=0' my_header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'} req = urllib.request.Request(url, headers=my_header) content = urllib.request.urlopen(req).read() 属性来进行迭代。但是,这些结果最多只能显示到第31页(约300个结果),而不是Google声称找到的13,000个结果。在浏览器中也是如此。当然有300多个页面。有没有办法进行更彻底的搜索?

0 个答案:

没有答案