我怎么刮刮谷歌?

时间:2013-10-30 08:45:29

标签: web-scraping

如何在google.com中获取HTML?

让我们说我去谷歌并输入" Humpty Dumpty"我将搜索结果和URL更改为:

https://www.google.com/search?newwindow=1&q=humpty+dumpty&oq=humtp&gs_l=serp.3.0.0i10l10.7599.8190.0.9757.5.5.0.0.0.0.373.732.3j1j0j1.5.0....0...1c.1.30.serp..2.3.187.2B69R71ux4U

但是,当我尝试HttpWebRequest下载此网页时,我不会在其中获取任何搜索结果HTML。我认为这是因为Google在加载页面后会对结果提出请求吗?

有什么方法可以获取HTML吗?

P.S:我知道谷歌的搜索是违反他们的服务条款的。我想知道如何刮这些网站。

1 个答案:

答案 0 :(得分:2)

使用下面的代码,我看到正确的HTML回来了(关于童谣的回归)

以下代码使用WebClient检索正确的HTML

WebClient wbclient = new WebClient();
string html = wbclient.DownloadString("https://www.google.com/search?newwindow=1&q=humpty+dumpty&oq=humtp&gs_l=serp.3.0.0i10l10.7599.8190.0.9757.5.5.0.0.0.0.373.732.3j1j0j1.5.0....0...1c.1.30.serp..2.3.187.2B69R71ux4U");