在Spark SQL中加入大数据帧时,我得到的错误与Missing an output location for shuffle相同。建议设置 MEMORY_AND_DISK 和/或 spark.shuffle.memoryFraction 0 。但是,在Spark> = 1.6.0中不推荐使用spark.shuffle.memoryFraction,如果我没有缓存任何RDD或Dataframe,设置MEMORY_AND_DISK应该没有帮助,对吧?此外,我正在获得许多其他WARN日志和任务重试,这使我认为工作不稳定。
因此,我的问题是:
更具体的问题是:
到目前为止,我使用this is answer和this chapter作为起点。还有一些与此主题相关的stackoverflow页面。然而,我还没有找到这个热门问题的全面答案。
提前致谢。
答案 0 :(得分:6)
这是很多问题。请允许我逐一回答:
执行者的数量是生产环境中大部分时间变量。这取决于可用资源。执行shuffle时,分区数很重要。假设您的数据现在已经扭曲,您可以通过增加分区数来降低每个任务的负载。 理想情况下,任务应该减去一些。如果任务花费的时间太长,则容器可能会被抢占并且工作丢失。如果任务只需几毫秒,则启动任务的开销占主导地位。
并行度和调整执行者大小的水平,我想参考Cloudera的优秀指南:https://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/
ORC和Parquet仅对静止的数据进行编码。在进行实际连接时,数据采用Spark的内存格式。自从Netflix和Facebook采用它并在其中付出了很多努力以来,Parquet越来越受欢迎。 Parquet允许您更有效地存储数据,并具有Spark使用的一些优化(谓词下推)。
您应该使用SQLContext而不是HiveContext,因为不推荐使用HiveContext。 SQLContext更通用,不仅适用于Hive。
执行registerTempTable
时,数据存储在SparkSession中。这不会影响连接的执行。它存储的只是执行操作时调用的执行计划(例如saveAsTable
)。在执行saveAsTable
时,数据会存储在分布式文件系统中。
希望这会有所帮助。我还建议观看Spark峰会上有关加入的话题:https://www.youtube.com/watch?v=6zg7NTw-kTQ。这可能会为您提供一些见解。
干杯,福科