应用错误收集

爬行文件系统和索引的最佳方法

时间：2017-12-01 09:40:04

标签： java solr manifoldcf

我正在开发一个项目，我需要抓取超过10TB的数据并将其编入索引。我需要实现增量爬行，花费更少的时间。

我的问题是：哪个是最适合所有大型组织使用的工具以及java？

我正在尝试使用Solr和Manifold CF，但Manifold在互联网上的文档很少。

2 个答案:

答案 0 :(得分：1)

对于使用 Java 最好使用开源 JSOUP 和SolrJ API的任何抓取活动，清晰简洁易懂的文件。

Jsoup 是一个用于处理真实HTML的Java库。它提供了一个非常方便的API，用于提取和操作数据，使用最好的DOM，CSS和类似jquery的方法。

SolrJ 是一个API，使Java应用程序可以轻松地与Solr通信。 SolrJ隐藏了许多连接到Solr的细节，并允许您的应用程序通过简单的高级方法与Solr交互。

如需更多选项，您还可以使用java Elasticsearch

尝试 API

答案 1 :(得分：0)

我们最终使用了Solr J（JAVA）和Apache ManifoldCF。尽管Manifold CF的文档几乎没有，但我们订阅了新闻通讯并向开发人员询问问题，他们很快做出了回应。但是，我不建议任何人使用此设置，因为Apache Manifold CF是过时且构建不良的东西。因此，更好地寻找替代品。希望这对某人有所帮助。