学习多线程Java爬虫的好开始

时间:2012-04-16 20:01:14

标签: java multithreading web-crawler

我正在用Java开发一个Web爬虫。我正在寻找一个很好的项目来开发基于它的爬虫。然而,实际上有超过几百个用Java编写的爬虫。我正在寻找的是相当简单的抓取工具:

  • 多线程功能
  • 表现良好
  • 基于最新的Java构建和新技术实施
  • 一份好文档
  • 没有很多不必要的功能(膨胀)
  • 能够轻松集成到我的项目中

1 个答案:

答案 0 :(得分:2)

  

我正在寻找的是一个相当简单的爬虫...

你真的不会发现这一点,爬虫没什么好看的!具体而言,拥有这些功能(尤其是最后一个要点)并不简单:

  • 多线程功能
  • 表现良好
  • 基于最新的Java构建和新技术实现
  • 一份好文档
  • 没有很多不必要的功能(膨胀)
  • 能够轻松集成到我的项目中

Nutch是一款功能齐全的Java爬虫,可满足您的大部分要求:http://nutch.apache.org/

此外,我建议您查看此问题:https://stackoverflow.com/questions/2495289/what-is-a-good-java-web-crawler-library