我尝试使用Talend& amp;尝试执行简单的连接操作火花。输入数据集是几百万条记录,查询数据集大约有100条记录。(我们可能需要加入百万条记录查找数据)。
尝试仅读取输入数据并生成具有以下内存设置的平面文件时,作业正常运行并且运行时间较短。但是,当尝试执行如上所述的连接操作时,作业将停留在99.7%。
过了一会儿(30-40分钟),这份工作会在abc.xyz.com"上打印一个日志 - " Lost executor xx。这可能是因为它等待时间过长而执行者被杀了。
我试图检查是否有人遇到过这样一个问题,即Spark作业在一个简单的操作中停留在99.7%。此外,在这种情况下使用的推荐调优属性是什么。