需要网络抓取帮助

时间:2010-02-21 13:32:38

标签: web-crawler

我正在完成我的一个小业余爱好项目,以创建一个小规模的搜索引擎。

我想知道是否有人知道他们使用了一个像样的强大的开源网络爬虫?

。菜鸟应该很容易设置和使用。

感谢您没有Google搜索网页抓取工具并粘贴列表。

2 个答案:

答案 0 :(得分:2)

crawler4j是一个相当不错的抓取工具,多线程,易于配置和使用。它是用Java编写的。

您可以在此wikipedia page中找到开源搜寻器列表。

答案 1 :(得分:0)

我认为你应该阅读类似的经历。

http://infolab.stanford.edu/~backrub/google.html