应用错误收集

时间：2017-06-07 13:33:27

标签： java hadoop apache-spark hdfs scalability

我用Java编写了一个支持多个子节点和边的树。到目前为止，我还没有担心扩展这个应用程序。用例现在要求搜索和维护100个或更多树的实例。

我在这个领域做过非常少的研究。首先想到的是Spark。我如何理解它，是Spark批处理事件的窗口 - 几乎删除＆＃34;在流＆＃34;方面。时间在这里非常关键。

所以我想利用Hadoop的文件系统。在整个集群中索引树并使用MapReduce进行维护。

我不介意读好。如果有任何文章，教程和/或建议，将不胜感激。

干杯

答案 0 :(得分：1)

Hadoop和Spark都是分布式处理系统。 Spark旨在覆盖Hadoop系统的缺点。

Hadoop有两个部分，一个名为hdfs的存储系统和一个名为map-reduce的处理算法。 Spark开发时分析了map-reduce中的缺点。因此RDD（弹性分布式数据集）在spark中引入，用于内存分布式处理。可以在Apache Spark和Jacek

中找到更多信息

我们也可以使用功能强大的hadoop文件系统进行Spark处理。

如果您选择spark，则可以使用scala或python或R学习函数式编程。 Hadoop依赖于map-reduce算法，这有点复杂。

Tree in scala还有api个版本，例如this和this

也有作品。

我希望这有用。