使用Java的web索引器

时间:2010-08-01 10:04:02

标签: java parallel-processing web-crawler distributed-computing

在Java中开发时,并行系统或分布式系统是否更适合网站爬虫和Web索引器?有哪些可用的框架?

2 个答案:

答案 0 :(得分:6)

您将在Java中找到的最好的爬虫/索引器组合之一是Nutch,它现在是一个Apache项目(参见Wiki),因此是开源的。

功能

  1. 并行获取,解析和索引以及/或分发
  2. 插件:纯文本,HTML,XML,ZIP,OpenDocument(OpenOffice.org),Microsoft Office(Word,Excel,Powerpoint),PDF,JavaScript,RSS,RTF,MP3(ID3标签)
  3. 本体
  4. 聚类
  5. MapReduce的
  6. 分布式文件系统(通过Hadoop)
  7. 链接图数据库
  8. NTLM身份验证(Windows / Exchange / etc)

答案 1 :(得分:1)

Nutch是无与伦比的。我在项目中成功使用的另一个更简单的库是https://crawler.dev.java.net/。您可以在https://crawler.dev.java.net/samples.html找到示例。