我正在执行一个SQL查询,并希望能够打印出执行查询需要多长时间。我不断收到属性错误,说Spark Session没有属性时间。我一直在做以下事情:
>>> df2 = sqlContext.sql("select * from temptable where Location == 'Moorland Rd Library'")
>>> spark.time(df2.show())
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'SparkSession' object has no attribute 'time'
答案 0 :(得分:1)
SparkSession.time()
功能仅在scala中可用。对于python,您可以改为使用time
模块。
import time
time(df2.show())
答案 1 :(得分:0)
就像其他人提到的那样,SparkSession.time()
它在 pyspark 中不可用。一个简单的解决方案是使用 time
:
import time
start_time = time.time()
df2.show()
print(f"Execution time: {time.time() - start_time}")