应用错误收集

时间：2016-02-12 08:40:37

标签： hadoop hdfs

如果hadoop和HDFS

，我是非常初学者

问题是这个

我是正确还是有更好的方法或更好的技术。

答案 0 :(得分：0)

假设有100个日志文件，每个节点在本地文件系统中有20个。你的问题是我应该加载所有100个火花吗？

在运行spark之前，您需要将文件从本地文件系统加载到HDFS （如果文件位于不同的节点，您可以使用SSH或其他方式加载它们）。然后，执行指定100个日志文件的HDFS位置的spark程序。

典型情况为步骤：假设5个服务器中有100个日志文件（每个20个），5个服务器是hadoop集群：

步骤1：将文件加载到HDFS。从所有5台服务器传播hdfs load命令。此时，当您尝试 hdfs dfs -ls / path / to / logfiles

时，您应该拥有所有100个文件

步骤2：执行Spark程序指向此/ path / to / logfiles位置。

希望它有所帮助。