我试图找到一个好的方法,或者在编写第一个网络爬虫时对初学者有益的一些例子。我想用c#编写。有没有人有任何好的示例代码可以分享或在某些我可以找到c#信息的网站上的一些提示,以及一些bacic网页浏览。
由于
答案 0 :(得分:4)
HtmlAgilityPack是你的朋友。
答案 1 :(得分:3)
是的,HtmlAgeilityPack是解析HTML的好工具,但这绝对不够。
要抓取3个要素:
1)抓取自己,即通过网站循环:这可以通过向随机IP地址发送请求来完成,但这不能很好地工作,因为许多网站使用共享IP地址HTTP和主机头,所以使用IP没有击中它。另一方面,有太多的IP地址未使用或没有托管Web服务器,所以这不会让你到任何地方。
我建议您向Google发送请求(从字典中搜索字词)并抓取返回的结果。
2)渲染内容:许多网站在加载表单时使用JavaScript生成HTML内容,因此如果您发送简单请求,它将无法像用户那样捕获内容能够看到。您需要像浏览器一样呈现页面,并且可以使用Webkit.net来完成,这是一个开源工具,但仍处于测试阶段。
3)理解和解析HTML:使用HTML包,在线有大量示例。这也可用于抓取网站。
答案 2 :(得分:2)