我用Java编写了一个支持多个子节点和边的树。到目前为止,我还没有担心扩展这个应用程序。用例现在要求搜索和维护100个或更多树的实例。
我在这个领域做过非常少的研究。首先想到的是Spark。我如何理解它,是Spark批处理事件的窗口 - 几乎删除"在流"方面。时间在这里非常关键。
所以我想利用Hadoop的文件系统。在整个集群中索引树并使用MapReduce进行维护。
我不介意读好。如果有任何文章,教程和/或建议,将不胜感激。
干杯
答案 0 :(得分:1)
Hadoop
和Spark
都是分布式处理系统。 Spark
旨在覆盖Hadoop
系统的缺点。
Hadoop
有两个部分,一个名为hdfs
的存储系统和一个名为map-reduce
的处理算法。 Spark
开发时分析了map-reduce
中的缺点。因此RDD
(弹性分布式数据集)在spark
中引入,用于内存分布式处理。可以在Apache Spark和Jacek
我们也可以使用功能强大的hadoop文件系统进行Spark
处理。
如果您选择spark
,则可以使用scala
或python
或R
学习函数式编程。 Hadoop
依赖于map-reduce
算法,这有点复杂。
Tree in scala还有api
个版本,例如this和this
我希望这有用。