构建链接树的爬虫形成单个网站

时间:2011-01-25 21:15:35

标签: web tree hyperlink web-crawler

我想知道是否有任何外包解决方案,只能解析给定网站的链接和页面,并将输出:

1.链接树 2.页面(必要时)

谢谢!

1 个答案:

答案 0 :(得分:0)

您不需要任何特定的框架来完成此任务。你知道哪种语言?如果您了解Java,则可以使用HttpClient或HttpUnit库来帮助您执行爬网任务。

如果你是python用户,那么有一个很棒的框架叫做Scrapy(http://scrapy.org/)。你应该看看它。