hadoop - 关于迁移到大数据的疑虑

我对hadoop有一些疑问

在cloudera发布的一个视频中，一位指导员说，在hadoop中有HDFS。每个文件都将存储为一组卡盘或块。每个块将在不同的机器中复制三次，以最大限度地减少故障点。每个映射器将处理一个hdfs块。

从这些逻辑中我发现，如果我的服务器有大约100 peta字节的日志，这些日志不像hdfs那样存储在传统的文件系统中。

主要疑问1.现在，如果我想使用mapreduce技术有效地分析这些巨大的数据，那么我必须在运行hdfs的新服务器中传输数据，并且存储旧服务器的三倍。

还有一个由cloudera发布的视频......指导者清楚地提到我们不需要将传统系统迁移到新系统，我们可以使用hadoop和map reduce。这与第一点中提到的陈述相矛盾。

主要疑问2：让我们假设第2点陈述是正确的。现在怎么可能呢。我的意思是我们如何在传统的文件系统上应用hadoop和map reduce，在每个机器上没有块复制或名称节点..deamon。

我的主要任务是促进快速分析当前未存储在hdfs中的大量日志。为此，我需要一台新服务器。

Hadoop只是运行MapReduce样式工作负载的基础架构（用于＆＃34;大数据＆＃34;或者＃34;分析＆＃34;在服务器群集上。

您可以使用HDFS跨节点进行数据共享，然后使用Hadoop内置的工作负载管理将工作分发到存储数据的节点。这有时被称为＆＃34;功能运输。＆＃34;

但不也可以使用HDFS。您可以使用其他网络文件共享/分发机制。各种供应商/平台都支持FTP（文件副本），S3（来自Amazon Web Services云的访问）以及各种其他集群/分布式文件系统。其中一些将数据移动到正在进行工作负载的系统（＆＃34;数据传输＆＃34;）。

哪种存储策略合适，高效且高性能是一个很大的问题，并且在很大程度上取决于您的基础架构和MapReduce应用程序的数据访问模式。但是，一般而言，分析工作是资源匮乏的，因此只有小型分析应用程序倾向于在执行其他工作的服务器上运行（＆＃34;原始系统＆＃34;）。所以处理大数据＆＃34;确实倾向于建议新的服务器 - 如果不是你购买的服务器，你从AWS，RackSpace等云服务暂时租用的服务器 - 以及从生产中捕获的数据的副本/克隆数据流（＆＃34;二级存储＆＃34;）而不是仍然驻留在＆＃34;主存储器上的数据。＆＃34;

如果您刚开始使用小型或适度的应用，则可以直接从现有系统就地访问数据。但是，如果您拥有100 PB的日志，那么您将希望在专门负责该任务的系统上进行处理。

关于迁移到大数据的疑虑

1 个答案: