我正在开发一个项目,我需要抓取超过10TB的数据并将其编入索引。我需要实现增量爬行,花费更少的时间。
我的问题是: 哪个是最适合所有大型组织使用的工具以及java?
我正在尝试使用Solr和Manifold CF,但Manifold在互联网上的文档很少。
答案 0 :(得分:1)
对于使用 Java 最好使用开源 JSOUP 和SolrJ API的任何抓取活动, 清晰简洁易懂的文件。
Jsoup 是一个用于处理真实HTML的Java库。它提供了一个非常方便的API,用于提取和操作数据,使用最好的DOM,CSS和类似jquery的方法。
SolrJ 是一个API,使Java应用程序可以轻松地与Solr通信。 SolrJ隐藏了许多连接到Solr的细节,并允许您的应用程序通过简单的高级方法与Solr交互。
如需更多选项,您还可以使用java Elasticsearch
尝试 API答案 1 :(得分:0)
我们最终使用了Solr J(JAVA)和Apache ManifoldCF。 尽管Manifold CF的文档几乎没有,但我们订阅了新闻通讯并向开发人员询问问题,他们很快做出了回应。 但是,我不建议任何人使用此设置,因为Apache Manifold CF是过时且构建不良的东西。因此,更好地寻找替代品。希望这对某人有所帮助。