人们似乎非常热衷于将现有应用程序迁移到Hadoop基础架构,并且在许多公司或组织中似乎有一句口头禅:如果您有大量数据,请使用Hadoop。 我想了解现有解决方案对集中式(大)数据的依赖性如何影响决策,如果Hadoop是一个好的解决方案。
在许多情况下,您典型的“大数据”应用程序希望处理数十亿件事情,例如:文档,消息,文件尽可能高效和快速。我看到以map / reduce方式在许多节点之间分配该工作的优势。 但是,为了能够处理这些事情,处理函数(映射器)必须在某处查找内容。例如,将查询发送到SQL服务器,在图形数据库中查找内容,在巨大的键/值存储中查找数据。此外,每个函数可能需要大量内存来存储/缓存处理其内容所需的所有数据。
这是违反Hadoop做事的方式还是通常以这种方式完成的事情?最重要的是,除了将处理工作分散到一堆Hadoop节点之外,您还需要找到一种如何并行化或升级或“中央服务器”(SQL,Graph数据库等)的方法,这样他们就可以了回答来自并行Hadoop节点的所有请求,不是吗?
当进行并行处理取决于大型中央数据存储中的快速查找时,使用Hadoop的最佳方法是什么?
答案 0 :(得分:0)
这就是为什么你有像Cassandra这样的解决方案的原因。当然,您不能仅仅大规模并行化计算,而是将数据存储保持为单个实体。您还需要并行化相关资源。