如果hadoop和HDFS
,我是非常初学者问题是这个
我是正确还是有更好的方法或更好的技术。
答案 0 :(得分:0)
假设有100个日志文件,每个节点在本地文件系统中有20个。你的问题是我应该加载所有100个火花吗?
在运行spark之前,您需要将文件从本地文件系统加载到HDFS (如果文件位于不同的节点,您可以使用SSH或其他方式加载它们)。然后,执行指定100个日志文件的HDFS位置的spark程序。
典型情况为步骤: 假设5个服务器中有100个日志文件(每个20个),5个服务器是hadoop集群:
步骤1:将文件加载到HDFS。从所有5台服务器传播hdfs load命令。此时,当您尝试 hdfs dfs -ls / path / to / logfiles
时,您应该拥有所有100个文件步骤2:执行Spark程序指向此/ path / to / logfiles位置。
希望它有所帮助。