我对hadoop有一些疑问
从这些逻辑中我发现,如果我的服务器有大约100 peta字节的日志,这些日志不像hdfs那样存储在传统的文件系统中。
主要疑问1.现在,如果我想使用mapreduce技术有效地分析这些巨大的数据,那么我必须在运行hdfs的新服务器中传输数据,并且存储旧服务器的三倍。
主要疑问2:让我们假设第2点陈述是正确的。现在怎么可能呢。我的意思是我们如何在传统的文件系统上应用hadoop和map reduce,在每个机器上没有块复制或名称节点..deamon。
我的主要任务是促进快速分析当前未存储在hdfs中的大量日志。为此,我需要一台新服务器。
P.S:我需要一些很好的教程或书籍或一些文章,可以让我深入了解大数据,以便我可以开始研究它。 因此,非常欢迎推荐。答案 0 :(得分:1)
Hadoop只是运行MapReduce样式工作负载的基础架构(用于"大数据"或者#34;分析"在服务器群集上。
您可以使用HDFS跨节点进行数据共享,然后使用Hadoop内置的工作负载管理将工作分发到存储数据的节点。这有时被称为"功能运输。"
但不也可以使用HDFS。您可以使用其他网络文件共享/分发机制。各种供应商/平台都支持FTP(文件副本),S3(来自Amazon Web Services云的访问)以及各种其他集群/分布式文件系统。其中一些将数据移动到正在进行工作负载的系统("数据传输")。
哪种存储策略合适,高效且高性能是一个很大的问题,并且在很大程度上取决于您的基础架构和MapReduce应用程序的数据访问模式。但是,一般而言,分析工作是资源匮乏的,因此只有小型分析应用程序倾向于在执行其他工作的服务器上运行("原始系统")。所以处理大数据"确实倾向于建议新的服务器 - 如果不是你购买的服务器,你从AWS,RackSpace等云服务暂时租用的服务器 - 以及从生产中捕获的数据的副本/克隆数据流("二级存储& #34;)而不是仍然驻留在"主存储器上的数据。"
如果您刚开始使用小型或适度的应用,则可以直接从现有系统就地访问数据。但是,如果您拥有100 PB的日志,那么您将希望在专门负责该任务的系统上进行处理。