应用错误收集

时间：2010-11-10 20:58:09

标签： c# web-crawler

我试图找到一个好的方法，或者在编写第一个网络爬虫时对初学者有益的一些例子。我想用c＃编写。有没有人有任何好的示例代码可以分享或在某些我可以找到c＃信息的网站上的一些提示，以及一些bacic网页浏览。

由于

答案 0 :(得分：4)

HtmlAgilityPack是你的朋友。

答案 1 :(得分：3)

是的，HtmlAgeilityPack是解析HTML的好工具，但这绝对不够。

要抓取3个要素：

1）抓取自己，即通过网站循环：这可以通过向随机IP地址发送请求来完成，但这不能很好地工作，因为许多网站使用共享IP地址HTTP和主机头，所以使用IP没有击中它。另一方面，有太多的IP地址未使用或没有托管Web服务器，所以这不会让你到任何地方。

我建议您向Google发送请求（从字典中搜索字词）并抓取返回的结果。

2）渲染内容：许多网站在加载表单时使用JavaScript生成HTML内容，因此如果您发送简单请求，它将无法像用户那样捕获内容能够看到。您需要像浏览器一样呈现页面，并且可以使用Webkit.net来完成，这是一个开源工具，但仍处于测试阶段。

3）理解和解析HTML：使用HTML包，在线有大量示例。这也可用于抓取网站。

答案 2 :(得分：2)

前段时间我还想写一个自定义网页抓取工具，并找到了这个文档：

它有一些很好的信息，并且写得很好IMO。