我是Spark
和SparkJob Server
的初学者。
我必须处理包含user_name的日志文件并获取唯一用户的数量。
存储在5个不同位置的日志文件(与LAN连接的不同服务器)。
可以在不同位置重复相同的用户名(假设服务器1日志可以具有特定用户名,服务器2也可以具有相同的用户名)。
问题
我以为我可以使用Spark Cluster
,但我有一种困惑。如果我编写一个查询来获取spark中的唯一用户(在集群模式下),它是否会在每个节点中单独处理并获取数字并发送给master或Master将获取所有日志文件并作为一个上下文读取并获取计数。 。?
因为如果在每个节点中单独处理日志文件,它可能会给出错误的计数。