C#web和ftp爬虫库

时间:2010-10-18 18:38:34

标签: c# web-crawler

我需要一个库(希望在C#中),它可以作为Web爬虫来访问HTTP文件和FTP文件。原则上,我很高兴阅读HTML,我想将其扩展为PDF,WORD等。

我对初学者的开源软件或至少任何文档说明感到满意。

2 个答案:

答案 0 :(得分:4)

检查NCrawler项目

  

使用C#编写的基于管道的处理的简单且非常高效的多线程Web爬网程序。包含HTML,文本,PDF和IFilter文档处理器和语言检测(Google)。易于添加管道步骤以提取,使用和更改信息。

答案 1 :(得分:1)

我开发了Crawler-Lib Framework的Crawler Engine。它是一个支持工作流的爬虫,可以轻松扩展以执行任何类型的请求,甚至可以进行处理。

这是引擎: http://www.crawler-lib.net/crawler-lib-engine

以下是一些Youtube视频,展示了Crawler-Lib引擎的工作原理: http://www.youtube.com/user/CrawlerLib

我知道这个项目不是开源的,但有一个免费版本。

相关问题