我需要计算胶水派生列的呼叫时间和呼叫中心的等待时间,用计算来建立新列,但是在Glue的JOB中不起作用,新列的值是空的,由Jupyter调试完美地工作。发生了什么事?
基本上,我有通话开始(startofcall),出勤时间(startofcare)和通话结束(endofcall)。
我创建了一个新列并计算了该字段:
df = df.withColumn ('TME', (F.when (df.startofcall> '1900-01-01',
((unix_timestamp (df.startofcare) - unix_timestamp (df.startofcall))) / 60) .otherwise (0)))
df = df.withColumn ('TMA', (F.when (df.startofcall> '1900-01-01',
((unix_timestamp (df.endofcall) - unix_timestamp (df.startofcare))) / 60) .otherwise (0)))
df = df.withColumn ('TTA', ((unix_timestamp (df.endofcall) - unix_timestamp (df.startofcall))) / 60)
使用SparkMagic打印Jupyter: