将每个系统设置为数据节点并从每个系统获取数据

时间:2016-02-12 08:40:37

标签: hadoop hdfs

如果hadoop和HDFS

,我是非常初学者
  • 在lan
  • 中连接了5台服务器
  • 每台服务器都有包含不同数据的日志文件

问题是这个

  • 我需要使用Spark处理所有日志文件。
  • 我需要加载所有日志文件以激活和处理。
  • 我有一个想法是拥有hdfs集群,就像每个服务器都是奴隶(每个 一个作为奴隶)并请求每个奴隶并获取日志文件和 加载到火花。

我是正确还是有更好的方法或更好的技术。

1 个答案:

答案 0 :(得分:0)

假设有100个日志文件,每个节点在本地文件系统中有20个。你的问题是我应该加载所有100个火花吗?

在运行spark之前,您需要将文件从本地文件系统加载到HDFS (如果文件位于不同的节点,您可以使用SSH或其他方式加载它们)。然后,执行指定100个日志文件的HDFS位置的spark程序。

典型情况为步骤: 假设5个服务器中有100个日志文件(每个20个),5个服务器是hadoop集群:

步骤1:将文件加载到HDFS。从所有5台服务器传播hdfs load命令。此时,当您尝试 hdfs dfs -ls / path / to / logfiles

时,您应该拥有所有100个文件

步骤2:执行Spark程序指向此/ path / to / logfiles位置。

希望它有所帮助。