之前可能会以不同的形式提出这个问题。
我的用例是我正在尝试从chrome / firefox扩展程序生成http请求到谷歌搜索结果页面(仅通过搜索的网址)。尝试使用chrome的邮递员休息客户端,但谷歌主页弹出。 想一想谷歌动态做些什么来阻止在返回的页面中看到结果?这个请求不是像客户端机器的请求吗?我可以将网址粘贴到其他浏览器中并且可以正常工作。 对此有何想法和/或知道已经完成此操作的人?
其他解决方案是获得一个Web服务,它具有scrapy(python)或一些基于Java的Web抓取器,并在那里抓取多个代理节点以获得结果。但是不想走这条路,除非它是唯一的路线。
NPAPI for chrome:似乎不安全
在此过程中它击中了我,所有新的搜索引擎如何能够产生与谷歌相同甚至更好的结果 - 而谷歌已经更长时间地调整其算法以及抓取网络。新算法无法与谷歌目前可能达到的复杂程度相媲美,即使基本原理是相同的。 Blekko,Duckduckgo,bing等等 - 所有似乎都会产生与google非常相似的结果。他们不只是从众多代理节点调用谷歌来模拟用户行为吗?或者已经抓取了足够的谷歌来构建他们的结果。
任何帮助或想法都会很棒。