标签: hadoop apache-spark
我在带有YARN的300节点集群上使用spark-sql 1.2。我正在执行左外连接,更大的表= 600GB和更小的表176MB,我缓存。
我运行300个执行程序,每个执行程序2GB,驱动程序2GB。
我在where子句中使用日期范围过滤器和条件。
程序运行正常,直到最后一个执行程序超时,并且在多次重试后永远不会返回。
数据有偏差,但我不认为这是问题所在。
程序的最后一步是保存到文本文件。
这两个表是rcfile格式的hive表。
大表有大约90列,连接在一列上。