读取spark集群中的各个文件并作为一个上下文处理

时间:2016-02-10 17:06:19

标签: apache-spark

我是SparkSparkJob Server的初学者。

  • 我必须处理包含user_name的日志文件并获取唯一用户的数量。

  • 存储在5个不同位置的日志文件(与LAN连接的不同服务器)。

  • 可以在不同位置重复相同的用户名(假设服务器1日志可以具有特定用户名,服务器2也可以具有相同的用户名)。

问题

我以为我可以使用Spark Cluster,但我有一种困惑。如果我编写一个查询来获取spark中的唯一用户(在集群模式下),它是否会在每个节点中单独处理并获取数字并发送给master或Master将获取所有日志文件并作为一个上下文读取并获取计数。 。?

因为如果在每个节点中单独处理日志文件,它可能会给出错误的计数。

0 个答案:

没有答案