在Java中开发时,并行系统或分布式系统是否更适合网站爬虫和Web索引器?有哪些可用的框架?
答案 0 :(得分:6)
您将在Java中找到的最好的爬虫/索引器组合之一是Nutch,它现在是一个Apache项目(参见Wiki),因此是开源的。
功能强>
答案 1 :(得分:1)
Nutch是无与伦比的。我在项目中成功使用的另一个更简单的库是https://crawler.dev.java.net/。您可以在https://crawler.dev.java.net/samples.html找到示例。