刮刮谷歌搜索结果

时间:2011-04-05 17:21:15

标签: c# web-scraping

我如何在C#中做到这一点?当我得到“http://www.google.co.uk/search?q=foobar”的来源时,我得到一个脚本。我想过使用AJAX API来获得JSON格式的结果,但它只是前32个结果。

3 个答案:

答案 0 :(得分:2)

如果您想在C#中使用基于Javascript的Google网站,而不依赖任何API,我建议使用以下备选方案:

  1. 更新到IE 9并在Windows窗体应用程序中使用WebBrowser控件。自动化WebBrowser控件以从站点检索信息。
  2. 如果您想要无头浏览器,请在.NET下使用HtmlUnit。这更复杂,但您可以看到这篇文章:Using HtmlUnit on .NET for Headless Browser Automation
  3. 可悲的是,Google API将在弃用规则后很快关闭。我在Google Search NoAPI

    写了一篇关于它的文章

答案 1 :(得分:0)

Google的AJAX API对于大多数用例来说都是无用的。

您可以创建一个脚本来搜索和抓取前100个结果。为避免被阻止,您可以缓慢请求或使用多个代理。确保将用户代理设置为不可疑的内容。

答案 2 :(得分:-1)

我认为如果您在更大范围内尝试,Google会阻止您。 如果你想被阻止并打破TOS,你可以使用Watin控制浏览器来克服javascripts。

如果您可以描述为什么需要更多结果,也许我们可以建议一种不会破坏服务条款的方法。