我试图了解当我从NoSQL源向Spark加载数据时会发生什么。即。它是否会尝试将记录加载到驱动程序中,然后将其分发给工作节点,还是会同时将记录加载到所有工作节点中? 。基本上有没有办法并行加载数据,如果是,如何确保同一条记录不被多个节点处理? 如果不是并行进程,则将相同的json写入" .json"文件帮助?(提供每行是记录)
答案 0 :(得分:1)
它将始终直接加载到工人。根据数据源及其存储方式,可以并行加载。加载数据时,数据将以非重叠行进行分片,因此您不必担心两次处理相同的数据。文件格式无关紧要。您从(mongo,cassandra,hbase)加载哪个数据源?如果你告诉我源系统,我可以给出更好的答案。