应用错误收集

人们似乎非常热衷于将现有应用程序迁移到Hadoop基础架构，并且在许多公司或组织中似乎有一句口头禅：如果您有大量数据，请使用Hadoop。我想了解现有解决方案对集中式（大）数据的依赖性如何影响决策，如果Hadoop是一个好的解决方案。

在许多情况下，您典型的“大数据”应用程序希望处理数十亿件事情，例如：文档，消息，文件尽可能高效和快速。我看到以map / reduce方式在许多节点之间分配该工作的优势。但是，为了能够处理这些事情，处理函数（映射器）必须在某处查找内容。例如，将查询发送到SQL服务器，在图形数据库中查找内容，在巨大的键/值存储中查找数据。此外，每个函数可能需要大量内存来存储/缓存处理其内容所需的所有数据。

这是违反Hadoop做事的方式还是通常以这种方式完成的事情？最重要的是，除了将处理工作分散到一堆Hadoop节点之外，您还需要找到一种如何并行化或升级或“中央服务器”（SQL，Graph数据库等）的方法，这样他们就可以了回答来自并行Hadoop节点的所有请求，不是吗？

当进行并行处理取决于大型中央数据存储中的快速查找时，使用Hadoop的最佳方法是什么？

如何使用Hadoop mapreduce集中资源

1 个答案: