我发现Apache spark比MySQL服务器慢得多,因为同一个查询和火花数据帧上的表查询相同。
那么哪里的火花比MySQL更有效?
注意:尝试在包含100万行的所有10列类型文本的表格上。
json中的表大小约为10GB
使用具有Xeon 16核心和64GB RAM的独立pyspark笔记本并在同一服务器MySql上
一般情况下,我想知道何时使用SPARK与SQL服务器的目标数据大小的指南,以便从分析查询中获得真正的快速结果。
答案 0 :(得分:1)
好的,所以即使在不知道更多的情况下仍然很难回答这个问题,所以要尝试在这里提供帮助。假设没有争用资源,这里有很多事情要做。如果你在纱线上运行,你的json存储在hdfs中。它可能被分成许多块,然后在不同的分区中处理这些块。由于json不能很好地分裂,你将失去很多并行功能。此外,spark并不意味着真正拥有超低延迟查询,如调优的rdbms。您从火花中受益的地方是大量数据处理,大量数据(TB或PB)。如果您正在寻找低延迟查询,您应该使用Impala或Hive with Tez。您还应该考虑将文件格式更改为avro,parquet或ORC。