Question

我有一个名为order的数据框，从csv文件加载，而 days_since_prior_order 列有一些空值。

testCompile ('junit:junit:4.12') {
    exclude group: 'org.hamcrest'
}
testCompile ('org.mockito:mockito-core:1.10.19') {
    exclude group: 'org.hamcrest'
}
testCompile 'org.hamcrest:hamcrest-core:1.3'

正如您所看到的，orders orders.createOrReplaceTempV spark.sql("select +--------+-------+--------+ |order_id|user_id|eval_set| +--------+-------+--------+ | 2539329| 1| prior| | 2398795| 1| prior| | 473747| 1| prior| | 2254736| 1| prior| | 431534| 1| prior| | 3367565| 1| prior| | 550135| 1| prior| | 3108588| 1| prior| | 2295261| 1| prior| | 2550362| 1| prior| | 1187899| 1| train| | 2168274| 2| prior| | 1501582| 2| prior| | 1901567| 2| prior| | 738281| 2| prior| | 1673511| 2| prior| | 1199898| 2| prior| | 3194192| 2| prior| | 788338| 2| prior| | 1718559| 2| prior| +--------+-------+--------+中有一些空白，

spark.sql("select

但令我困惑的是， |order_id|user_id|eval_set| +--------+-------+--------+ | 2398795|      1|   prior| |  473747|      1|   prior| | 2254736|      1|   prior| |  431534|      1|   prior| | 3367565|      1|   prior| |  550135|      1|   prior| | 3108588|      1|   prior| | 2295261|      1|   prior| | 2550362|      1|   prior| | 1187899|      1|   train| | 1501582|      2|   prior| | 1901567|      2|   prior| |  738281|      2|   prior| | 1673511|      2|   prior| | 1199898|      2|   prior| | 3194192|      2|   prior| |  788338|      2|   prior| | 1718559|      2|   prior| | 1447487|      2|   prior| | 1402090|      2|   prior| +--------+-------+--------+ 时，结果中的最大值不正确。

= spark.read.csv("/Users/yanan.chen/Downloads/instacart/orders.csv",header=True) iew("orders") * from orders limit 30").show() ------------+---------+-----------------+----------------------+ order_number|order_dow|order_hour_of_day|days_since_prior_order| ------------+---------+-----------------+----------------------+ 1|        2|               08|                      | 2|        3|               07|                  15.0| 3|        3|               12|                  21.0| 4|        4|               07|                  29.0| 5|        4|               15|                  28.0| 6|        2|               07|                  19.0| 7|        1|               09|                  20.0| 8|        1|               14|                  14.0| 9|        1|               16|                   0.0| 10|        4|               08|                  30.0| 11|        4|               08|                  14.0| 1|        2|               11|                      | 2|        5|               10|                  10.0| 3|        1|               10|                   3.0| 4|        2|               10|                   8.0| 5|        3|               11|                   8.0| 6|        2|               09|                  13.0| 7|        2|               12|                  14.0| 8|        1|               15|                  27.0| 9|        2|               09|                   8.0| ------------+---------+-----------------+----------------------+ 实际上是＆＃39;＆＃39;。 days_since_prior_order 
 * from orders where days_since_prior_order <> '' ").show()

当我执行

+--------+-------+--------+------------+---------+-----------------+----------------------+ order_number|order_dow|order_hour_of_day|days_since_prior_order| ------------+---------+-----------------+----------------------+ 2|        3|               07|                  15.0| 3|        3|               12|                  21.0| 4|        4|               07|                  29.0| 5|        4|               15|                  28.0| 6|        2|               07|                  19.0| 7|        1|               09|                  20.0| 8|        1|               14|                  14.0| 9|        1|               16|                   0.0| 10|        4|               08|                  30.0| 11|        4|               08|                  14.0| 2|        5|               10|                  10.0| 3|        1|               10|                   3.0| 4|        2|               10|                   8.0| 5|        3|               11|                   8.0| 6|        2|               09|                  13.0| 7|        2|               12|                  14.0| 8|        1|               15|                  27.0| 9|        2|               09|                   8.0| 10|        1|               11|                   6.0| 11|        1|               10|                  30.0| ------------+---------+-----------------+----------------------+

spark.sql("select min(days_since_prior_order),  max(days_since_prior_order) from orders where days_since_prior_order <> '' ").show()

我的代码出了什么问题？

Answer 1

您需要将列从String转换为数字类型。做类似的事情：

 from pyspark.sql.functions import col
 orders = orders.withColumn('days_since_prior_order',
        col('days_since_prior_order').cast('double'))

然后你会得到正确的结果。

另一种方法是使用udf（用户定义的函数，但是当我们变得简单时，为什么会复杂化。）

为什么pyspark中的数据框的最大值不正确？

1 个答案: