关于迁移到大数据的疑虑

时间:2014-11-25 19:11:05

标签: hadoop mapreduce bigdata cloudera

我对hadoop有一些疑问

  1. 在cloudera发布的一个视频中,一位指导员说,在hadoop中有HDFS。每个文件都将存储为一组卡盘或块。每个块将在不同的机器中复制三次,以最大限度地减少故障点。每个映射器将处理一个hdfs块。
  2. 从这些逻辑中我发现,如果我的服务器有大约100 peta字节的日志,这些日志不像hdfs那样存储在传统的文件系统中。

    主要疑问1.现在,如果我想使用mapreduce技术有效地分析这些巨大的数据,那么我必须在运行hdfs的新服务器中传输数据,并且存储旧服务器的三倍。

    1. 还有一个由cloudera发布的视频......指导者清楚地提到我们不需要将传统系统迁移到新系统,我们可以使用hadoop和map reduce。这与第一点中提到的陈述相矛盾。
    2. 主要疑问2:让我们假设第2点陈述是正确的。现在怎么可能呢。我的意思是我们如何在传统的文件系统上应用hadoop和map reduce,在每个机器上没有块复制或名称节点..deamon。

      我的主要任务是促进快速分析当前未存储在hdfs中的大量日志。为此,我需要一台新服务器。

      P.S:我需要一些很好的教程或书籍或一些文章,可以让我深入了解大数据,以便我可以开始研究它。 因此,非常欢迎推荐。

1 个答案:

答案 0 :(得分:1)

Hadoop只是运行MapReduce样式工作负载的基础架构(用于"大数据"或者#34;分析"在服务器群集上。

您可以使用HDFS跨节点进行数据共享,然后使用Hadoop内置的工作负载管理将工作分发到存储数据的节点。这有时被称为"功能运输。"

也可以使用HDFS。您可以使用其他网络文件共享/分发机制。各种供应商/平台都支持FTP(文件副本),S3(来自Amazon Web Services云的访问)以及各种其他集群/分布式文件系统。其中一些将数据移动到正在进行工作负载的系统("数据传输")。

哪种存储策略合适,高效且高性能是一个很大的问题,并且在很大程度上取决于您的基础架构和MapReduce应用程序的数据访问模式。但是,一般而言,分析工作是资源匮乏的,因此只有小型分析应用程序倾向于在执行其他工作的服务器上运行("原始系统")。所以处理大数据"确实倾向于建议新的服务器 - 如果不是你购买的服务器,你从AWS,RackSpace等云服务暂时租用的服务器 - 以及从生产中捕获的数据的副本/克隆数据流("二级存储& #34;)而不是仍然驻留在"主存储器上的数据。"

如果您刚开始使用小型或适度的应用,则可以直接从现有系统就地访问数据。但是,如果您拥有100 PB的日志,那么您将希望在专门负责该任务的系统上进行处理。