我是数据科学的新手......实际上是在做一门课程。
我正在尝试使用spark sql创建一个查询...你能帮我解决这些错误吗?非常感谢你 F.E.我不知道如何连接字符串和减去日期。 这是我试图让它工作的查询:
sqlDF5 = sqlContext.sql(sqlQuery=
"select document_number, count((distinct document_number) ||'-'|| rloc) as frecuency,
sum(revenue_amount_seg) as money,
datediff(day, max(departure_date_leg) as datetime,'2014-01-01 00:00:00' as datetime) as recency,
from clientes_unicos group by document_number")
答案 0 :(得分:0)
实际上,如果有人需要,我可以找到解决方案:
sqlDF = sqlContext.sql(sqlQuery =“select document_number,\
count(distinct(concat(document_number,',',rloc)))作为频率,\
总和(revenue_amount_seg)为金钱,\
datediff(to_date('2014-01-01 00:00:00'),to_date(max(departure_date_leg)))作为新近度\
来自clientes_unicos group by document_number“)