建议 - C#/ .Net Link Scraping / Web Crawler Framework

时间:2012-06-10 17:45:05

标签: c# multithreading web-crawler

我正在寻找C#中的网络抓取工具或链接抓取工具的实现,我可以根据自己的需要进行修改。我们需要一些我们可以按需运行的东西来蜘蛛网站列表,以留意某些链接。蜘蛛不需要存储站点的副本,下载图像或任何类型的东西 - 它只需要报告链接到某些匹配一小部分子串的站点的页面。

我见过像arachnode.net这样的爬虫实现(以及其他各种各样的例子),但它们都包含大量围绕保存内容的代码。我们不需要这样做。我们只需解析链接的每个页面并报告任何包含符合特定条件的链接(它将是一个简单的子字符串匹配)。

有人可以推荐一个可以帮助我入门的框架或示例吗?似乎有很多方法可以做到这一点(特别是使用.NET 4和HTML Agility Pack),但由于我们需要定期运行它,因此高性能的线程或并行处理实现非常重要。

[edit]

我可能一直不清楚 - 这必须在桌面上运行,而不是作为ASP.Net网站的一部分。公司拥有的站点跨越许多域,服务器和地理位置,因此它不能是服务器端解决方案。

1 个答案:

答案 0 :(得分:1)

SEO名称空间可以帮助吗? WebCrawler类是您要查找的内容:

http://msdn.microsoft.com/en-us/library/microsoft.web.management.seo.crawler.webcrawler(v=VS.90).aspx