Question

我正在尝试从网站上收集一些项目的数据，并且我想使用Python来自动执行此操作。例如，假设我要查找北萨米语的所有Wikipedia页面。在浏览器中，我只需输入Google

await

，Google声称找到了13,000个我想收集其URL的页面。我对编程还很陌生，我看过很多以前的问题，但找不到适合我的答案。

起初我以为我会使用Google的自定义搜索引擎API。我使它起作用，但显然它只返回前100个结果（分10个结果），并且没有办法改变这一点，甚至不付钱给Google（您可以每天增加查询数量，但不能增加结果数量）

然后我想我只会像浏览器一样请求搜索结果，并从HTML获取URL。我确实可以用

site:se.wikipedia.org/wiki/

我可以通过更改import urllib.request url = 'https://www.google.com/search?q=site%3Ase.wikipedia.org%2Fwiki%2F&start=0' my_header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'} req = urllib.request.Request(url, headers=my_header) content = urllib.request.urlopen(req).read()属性来进行迭代。但是，这些结果最多只能显示到第31页（约300个结果），而不是Google声称找到的13,000个结果。在浏览器中也是如此。当然有300多个页面。有没有办法进行更彻底的搜索？

从Python查找特定网站上的页面

0 个答案: