爬行文件系统和索引的最佳方法

时间:2017-12-01 09:40:04

标签: java solr manifoldcf

我正在开发一个项目,我需要抓取超过10TB的数据并将其编入索引。我需要实现增量爬行,花费更少的时间。

我的问题是: 哪个是最适合所有大型组织使用的工具以及java?

我正在尝试使用Solr和Manifold CF,但Manifold在互联网上的文档很少。

2 个答案:

答案 0 :(得分:1)

对于使用 Java 最好使用开源 JSOUP SolrJ API的任何抓取活动, 清晰简洁易懂的文件。

Jsoup 是一个用于处理真实HTML的Java库。它提供了一个非常方便的API,用于提取和操作数据,使用最好的DOM,CSS和类似jquery的方法。

SolrJ 是一个API,使Java应用程序可以轻松地与Solr通信。 SolrJ隐藏了许多连接到Solr的细节,并允许您的应用程序通过简单的高级方法与Solr交互。

如需更多选项,您还可以使用java Elasticsearch

尝试 API

答案 1 :(得分:0)

我们最终使用了Solr J(JAVA)和Apache ManifoldCF。 尽管Manifold CF的文档几乎没有,但我们订阅了新闻通讯并向开发人员询问问题,他们很快做出了回应。 但是,我不建议任何人使用此设置,因为Apache Manifold CF是过时且构建不良的东西。因此,更好地寻找替代品。希望这对某人有所帮助。