我认为此问题已在此处得到解答,但我无法找到所需的主题。我是网络抓取的新手。我必须开发一个脚本,将所有谷歌搜索结果作为特定名称。然后它将根据该名称获取相关数据,如果找到多个,则数据将根据其名称进行分组。
我所知道的是,google对抓取有一些限制。他们提供了一个自定义搜索api。我仍然没有使用那个api,但希望得到所有结果链接对应于来自该api的查询。但是,无法理解从链接中抓取信息的理想过程。非常感谢任何教程链接或建议。
答案 0 :(得分:0)
你应该提供更多你正在做的事情,这听起来并不像你自己试图解决它。
无论如何,如果你还在上面:
你可以通过两种方式刮掉谷歌,一种是不允许的
a)使用他们的API,你每天可以获得大约2k的结果
你可以每天大约3k,每年2000美元。您可以通过直接与他们联系来增加它
如果您只需要较少数量的请求,并且主要想根据选择的关键字获取某些网站,您将无法从此方法获得准确的排名位置。
起点在这里:https://code.google.com/apis/console/
b)你可以刮掉真实的搜索结果 这是获得真正的排名位置,搜索引擎优化或跟踪网站位置的唯一途径。如果做得好,它也可以获得大量的结果 您可以使用Google代码,我知道最先进的免费(PHP)代码是http://scraping.compunect.com 但是,还有其他项目和代码片段 您可以从每天300-500个请求开始,这可以乘以多个IP。如果您想要走这条路线,请查看链接的文章,它会更详细地解释它并且非常准确。
那就是说,如果你选择路线b)你打破谷歌的条款,所以要么不接受它们,要么确保没有检测到。如果Google检测到您,则您的脚本将被IP /验证码禁止。没有被发现应该是一个优先事项。