使用SQL

时间:2018-03-20 07:30:53

标签: pyspark apache-zeppelin

我试图通过加入pyspark中的两个表来提取数据。我的连接查询如下:

SELECT COUNT(DISTINCT m.ticker),to_date(m.date) FROM extractalpha_cam2 m LEFT OUTER JOIN TOP1000 u ON u.date = to_date(m.date) GROUP BY m.date ORDER BY m.date

抛出错误:

  

错误:Py4JJavaError:调用时发生错误   Z:org.apache.zeppelin.spark.ZeppelinContext.showDF

但是,当我尝试从每个表中提取数据时,它工作正常。我从单个表中的查询就像

SELECT to_date(date) FROM extractalpha_cam2
SELECT date from TOP1000

这两个查询工作正常。任何人都可以通过加入帮助我从两个表中提取数据。

如果有人可以分享任何此类链接,这将非常有用,这可以指导我在pyspark中编写有效的查询。

1 个答案:

答案 0 :(得分:0)

我检查过,发现这个错误发生时,你正在运行的作业花费的时间比你设置的超时时间要长。在我的情况下,这是300秒。

让我知道是否有人比这更有价值的答案。感谢