Question

我试图通过加入pyspark中的两个表来提取数据。我的连接查询如下：

SELECT COUNT(DISTINCT m.ticker),to_date(m.date) FROM extractalpha_cam2 m LEFT OUTER JOIN TOP1000 u ON u.date = to_date(m.date) GROUP BY m.date ORDER BY m.date

抛出错误：

错误：Py4JJavaError：调用时发生错误 Z：org.apache.zeppelin.spark.ZeppelinContext.showDF

但是，当我尝试从每个表中提取数据时，它工作正常。我从单个表中的查询就像

SELECT to_date(date) FROM extractalpha_cam2
SELECT date from TOP1000

这两个查询工作正常。任何人都可以通过加入帮助我从两个表中提取数据。

如果有人可以分享任何此类链接，这将非常有用，这可以指导我在pyspark中编写有效的查询。

Answer 1

我检查过，发现这个错误发生时，你正在运行的作业花费的时间比你设置的超时时间要长。在我的情况下，这是300秒。

让我知道是否有人比这更有价值的答案。感谢

使用SQL

1 个答案: