标签: web-crawler
我正在完成我的一个小业余爱好项目,以创建一个小规模的搜索引擎。
我想知道是否有人知道他们使用了一个像样的强大的开源网络爬虫?
感谢您没有Google搜索网页抓取工具并粘贴列表。
答案 0 :(得分:2)
crawler4j是一个相当不错的抓取工具,多线程,易于配置和使用。它是用Java编写的。
您可以在此wikipedia page中找到开源搜寻器列表。
答案 1 :(得分:0)
我认为你应该阅读类似的经历。
http://infolab.stanford.edu/~backrub/google.html