扩展基于Java的树

时间:2017-06-07 13:33:27

标签: java hadoop apache-spark hdfs scalability

我用Java编写了一个支持多个子节点和边的树。到目前为止,我还没有担心扩展这个应用程序。用例现在要求搜索和维护100个或更多树的实例。

我在这个领域做过非常少的研究。首先想到的是Spark。我如何理解它,是Spark批处理事件的窗口 - 几乎删除"在流"方面。时间在这里非常关键。

所以我想利用Hadoop的文件系统。在整个集群中索引树并使用MapReduce进行维护。

我不介意读好。如果有任何文章,教程和/或建议,将不胜感激。

干杯

1 个答案:

答案 0 :(得分:1)

HadoopSpark都是分布式处理系统。 Spark旨在覆盖Hadoop系统的缺点。

Hadoop有两个部分,一个名为hdfs的存储系统和一个名为map-reduce的处理算法。 Spark开发时分析了map-reduce中的缺点。因此RDD(弹性分布式数据集)在spark中引入,用于内存分布式处理。可以在Apache SparkJacek

中找到更多信息

我们也可以使用功能强大的hadoop文件系统进行Spark处理。

如果您选择spark,则可以使用scalapythonR学习函数式编程。 Hadoop依赖于map-reduce算法,这有点复杂。

Tree in scala还有api个版本,例如thisthis

也有作品。

我希望这有用。