我试图通过加入pyspark中的两个表来提取数据。我的连接查询如下:
SELECT COUNT(DISTINCT m.ticker),to_date(m.date) FROM extractalpha_cam2 m LEFT OUTER JOIN TOP1000 u ON u.date = to_date(m.date) GROUP BY m.date ORDER BY m.date
抛出错误:
错误:Py4JJavaError:调用时发生错误 Z:org.apache.zeppelin.spark.ZeppelinContext.showDF
但是,当我尝试从每个表中提取数据时,它工作正常。我从单个表中的查询就像
SELECT to_date(date) FROM extractalpha_cam2
SELECT date from TOP1000
这两个查询工作正常。任何人都可以通过加入帮助我从两个表中提取数据。
如果有人可以分享任何此类链接,这将非常有用,这可以指导我在pyspark中编写有效的查询。
答案 0 :(得分:0)
我检查过,发现这个错误发生时,你正在运行的作业花费的时间比你设置的超时时间要长。在我的情况下,这是300秒。
让我知道是否有人比这更有价值的答案。感谢