我正在寻找C#中的网络抓取工具或链接抓取工具的实现,我可以根据自己的需要进行修改。我们需要一些我们可以按需运行的东西来蜘蛛网站列表,以留意某些链接。蜘蛛不需要存储站点的副本,下载图像或任何类型的东西 - 它只需要报告链接到某些匹配一小部分子串的站点的页面。
我见过像arachnode.net这样的爬虫实现(以及其他各种各样的例子),但它们都包含大量围绕保存内容的代码。我们不需要这样做。我们只需解析链接的每个页面并报告任何包含符合特定条件的链接(它将是一个简单的子字符串匹配)。
有人可以推荐一个可以帮助我入门的框架或示例吗?似乎有很多方法可以做到这一点(特别是使用.NET 4和HTML Agility Pack),但由于我们需要定期运行它,因此高性能的线程或并行处理实现非常重要。
[edit]
我可能一直不清楚 - 这必须在桌面上运行,而不是作为ASP.Net网站的一部分。公司拥有的站点跨越许多域,服务器和地理位置,因此它不能是服务器端解决方案。
答案 0 :(得分:1)
SEO名称空间可以帮助吗? WebCrawler类是您要查找的内容: