应用错误收集

使用Java的web索引器

时间：2010-08-01 10:04:02

标签： java parallel-processing web-crawler distributed-computing

在Java中开发时，并行系统或分布式系统是否更适合网站爬虫和Web索引器？有哪些可用的框架？

2 个答案:

答案 0 :(得分：6)

您将在Java中找到的最好的爬虫/索引器组合之一是Nutch，它现在是一个Apache项目（参见Wiki），因此是开源的。

功能

并行获取，解析和索引以及/或分发

插件：纯文本，HTML，XML，ZIP，OpenDocument（OpenOffice.org），Microsoft Office（Word，Excel，Powerpoint），PDF，JavaScript，RSS，RTF，MP3（ID3标签）

本体

聚类

MapReduce的

分布式文件系统（通过Hadoop）

链接图数据库

NTLM身份验证（Windows / Exchange / etc）

答案 1 :(得分：1)

Nutch是无与伦比的。我在项目中成功使用的另一个更简单的库是https://crawler.dev.java.net/。您可以在https://crawler.dev.java.net/samples.html找到示例。