AWS GLUE-派生列可在Jupyter(调试模式)下工作,但不适用于粘合作业

时间:2019-12-15 15:28:19

标签: pyspark aws-glue

我需要计算胶水派生列的呼叫时间和呼叫中心的等待时间,用计算来建立新列,但是在Glue的JOB中不起作用,新列的值是空的,由Jupyter调试完美地工作。发生了什么事?

创建计算呼叫中心呼叫分钟数

基本上,我有通话开始(startofcall),出勤时间(startofcare)和通话结束(endofcall)。

我创建了一个新列并计算了该字段:

df = df.withColumn ('TME', (F.when (df.startofcall> '1900-01-01',
                ((unix_timestamp (df.startofcare) - unix_timestamp (df.startofcall))) / 60) .otherwise (0)))

df = df.withColumn ('TMA', (F.when (df.startofcall> '1900-01-01',
                ((unix_timestamp (df.endofcall) - unix_timestamp (df.startofcare))) / 60) .otherwise (0)))

df = df.withColumn ('TTA', ((unix_timestamp (df.endofcall) - unix_timestamp (df.startofcall))) / 60)

使用SparkMagic打印Jupyter:

enter image description here

0 个答案:

没有答案