我创建了两个RDD并使用java持久化它们。我把罐子提交给了火花大师。现在当spark shell提示我输入查询时,我在两个RDD上给出了一个SQL语句连接条件;然后它在结果集上执行collect()时抛出异常。
JOIN条件:选择TABLE_1中的a.ID作为JOIN TABLE_2 b ON a.NAME = b.NAME;
异常:resultSet.collect()
上的空指针异常PS:我在resultSet.collect()之前检查过结果集是否为null;但它仍然进入条件并抛出NPE。我正在使用spark-sql-1.1.1 jar(最新版)。
SPARK SQL中的JOIN是否存在问题?
答案 0 :(得分:0)
看起来Java spark API在某些JOIN操作中存在问题。当我使用scala尝试相同时它工作