substract date和concatenate strings - spark SQL

时间:2017-06-20 20:40:17

标签: apache-spark apache-spark-sql spark-dataframe pyspark-sql

我是数据科学的新手......实际上是在做一门课程。

我正在尝试使用spark sql创建一个查询...你能帮我解决这些错误吗?非常感谢你 F.E.我不知道如何连接字符串和减去日期。 这是我试图让它工作的查询:

sqlDF5 = sqlContext.sql(sqlQuery=

"select document_number, count((distinct document_number) ||'-'|| rloc) as frecuency, 

sum(revenue_amount_seg) as money, 

datediff(day, max(departure_date_leg) as datetime,'2014-01-01 00:00:00' as datetime) as recency, 

from clientes_unicos group by document_number")

1 个答案:

答案 0 :(得分:0)

实际上,如果有人需要,我可以找到解决方案:

sqlDF = sqlContext.sql(sqlQuery =“select document_number,\

count(distinct(concat(document_number,',',rloc)))作为频率,\

总和(revenue_amount_seg)为金钱,\

datediff(to_date('2014-01-01 00:00:00'),to_date(max(departure_date_leg)))作为新近度\

来自clientes_unicos group by document_number“)