c# - C＃web和ftp爬虫库

时间：2010-10-18 18:38:34

标签： c# web-crawler

我需要一个库（希望在C＃中），它可以作为Web爬虫来访问HTTP文件和FTP文件。原则上，我很高兴阅读HTML，我想将其扩展为PDF，WORD等。

我对初学者的开源软件或至少任何文档说明感到满意。

答案 0 :(得分：4)

检查NCrawler项目

使用C＃编写的基于管道的处理的简单且非常高效的多线程Web爬网程序。包含HTML，文本，PDF和IFilter文档处理器和语言检测（Google）。易于添加管道步骤以提取，使用和更改信息。

答案 1 :(得分：1)

我开发了Crawler-Lib Framework的Crawler Engine。它是一个支持工作流的爬虫，可以轻松扩展以执行任何类型的请求，甚至可以进行处理。

以下是一些Youtube视频，展示了Crawler-Lib引擎的工作原理： http://www.youtube.com/user/CrawlerLib

我知道这个项目不是开源的，但有一个免费版本。