查找行关系并获取最小值

时间:2019-05-07 07:04:00

标签: apache-spark pyspark

我有一个数据框,其中包含有关路线及其价格的数据。我有往返路线。我想知道两个单身人士是否比往返日期和时间相同的往返机票便宜。例如,假设我有一条这样的路线:ATLJFKJFKATL这是往返行程,出发时间是2:15,到达时间是10:15。两种方式是ATLJFK和JFKATL。因此,在我的数据中,我需要同时找到这些单向路线。 ATLJFK在2:15,JFKATL在10:15。然后,我需要将这两个价格结合起来,看看它是否比往返航班便宜,如果是的话,我们将在该列中添加1。

示例数据:

route          tripType  IndeptDate OutarrivDate IndeptTime OutarrivTime  price  
ATLJFKJFKATL   rt        20190507   20190510     2:15       10:15         300
ATLJFK         sg        20190507   null         2:15       null          125
JFKATL         sg        20190510   null         10:15      null          150
ATLJFK         sg        20190507   null         2:50       null          99
JFKATL         sg        20190511   null         10:15      null          100

示例输出:

route          tripType  IndeptDate OutarrivDate IndeptTime OutarrivTime  price 
ATLJFKJFKATL   rt        20190507   20190510     2:15       10:15         300
ATLJFK         sg        20190507   null         2:15       null          125
JFKATL         sg        20190510   null         10:15      null          150
ATLJFK         sg        20190507   null         2:50       null          99
JFKATL         sg        20190511   null         10:15      null          100

isCheaper  cheaperPrice
1          254
null       null
null       null
null       null
null       null

因此,我们的输出显示,对于该往返路线,确实存在两种方法,在一小时之内比它便宜,并且总价格为254,比原始的300还便宜。我该如何进行构建逻辑?

0 个答案:

没有答案