当我有完整的TS列列(此处为'b'
)时,我对一个列中的内插值有疑问:
from pyspark.sql import SparkSession
from pyspark import Row
spark = SparkSession.builder \
.appName('DataFrame') \
.master('local[*]') \
.getOrCreate()
df = spark.createDataFrame([Row(a=1, b='2019-09-26 09:53:10', c='7793740'),
Row(a=2, b='2019-09-26 09:54:12', c=''),
Row(a=3, b='2019-09-26 09:55:11', c='7793742'),
Row(a=4, b='2019-09-26 09:56:10', c=''),
Row(a=5, b='2019-09-26 09:57:11', c=''),
Row(a=6, b='2019-09-26 09:58:10', c='7793745'),
Row(a=7, b='2019-09-26 09:59:11', c=''),
Row(a=8, b='2019-09-26 10:00:10', c='7793747')])
df = df.withColumn('c', df['c'].cast('int'))
df = df.withColumn('b', df['b'].cast('timestamp'))
df.show()
| a| b| c|
+---+-------------------+-------+
| 1|2019-09-26 09:53:10|7793740|
| 2|2019-09-26 09:54:12| null|
| 3|2019-09-26 09:55:11|7793742|
| 4|2019-09-26 09:56:10| null|
| 5|2019-09-26 09:57:11| null|
| 6|2019-09-26 09:58:10|7793745|
| 7|2019-09-26 09:59:11| null|
| 8|2019-09-26 10:00:10|7793747|
+---+-------------------+-------+
在大熊猫中,这很简单,例如:
import pandas as pd
import numpy as np
pdf = df.toPandas()
pdf = pdf.set_index('b')
pdf = pdf.interpolate(method='index', axis=0, limit_direction='forward')
pdf.reset_index(inplace=True)
b a c
0 2019-09-26 09:53:10 1 7.793740e+06
1 2019-09-26 09:54:12 2 7.793741e+06
2 2019-09-26 09:55:11 3 7.793742e+06
3 2019-09-26 09:56:10 4 7.793743e+06
4 2019-09-26 09:57:11 5 7.793744e+06
5 2019-09-26 09:58:10 6 7.793745e+06
6 2019-09-26 09:59:11 7 7.793746e+06
7 2019-09-26 10:00:10 8 7.793747e+06
我们可以避免使用udfs吗?如果没有,如何使用它们(我正在考虑我将拥有数百万行的情况)。
在第一个值为空的情况下,我们还可以在both directions
中使用插值吗?谢谢!
答案 0 :(得分:1)
似乎没有直接函数可以在spark DataFrame列之间进行插值,这是我的想法。我们可以将插值放入UDF中。
spark = SparkSession.builder.appName('test').getOrCreate()
df = spark.createDataFrame([Row(a=1, b='2019-09-26 09:53:10', c='7793740'),
Row(a=2, b='2019-09-26 09:54:12', c=''),
Row(a=3, b='2019-09-26 09:55:11', c='7793742'),
Row(a=4, b='2019-09-26 09:56:10', c=''),
Row(a=5, b='2019-09-26 09:57:11', c=''),
Row(a=6, b='2019-09-26 09:58:10', c='7793745'),
Row(a=7, b='2019-09-26 09:59:11', c=''),
Row(a=8, b='2019-09-26 10:00:10', c='7793747')])
df = df.withColumn('c', df['c'].cast('int'))
df = df.withColumn('b', df['b'].cast('timestamp'))
df = df.withColumn('flag', F.lit(1))
df.show()
@pandas_udf(df.schema, PandasUDFType.GROUPED_MAP)
def interpolate(pdf):
pdf = pdf.set_index('b')
pdf.sort_values(by=['a'], inplace=True)
pdf = pdf.interpolate(method='index', axis=0, limit_direction='forward')
pdf.reset_index(inplace=True)
return pdf
df = df.groupby(['flag']).apply(interpolate)
df.sort(df['a']).show()
这将输出:
+---+-------------------+-------+----+
| a| b| c|flag|
+---+-------------------+-------+----+
| 1|2019-09-26 09:53:10|7793740| 1|
| 2|2019-09-26 09:54:12|7793741| 1|
| 3|2019-09-26 09:55:11|7793742| 1|
| 4|2019-09-26 09:56:10|7793742| 1|
| 5|2019-09-26 09:57:11|7793744| 1|
| 6|2019-09-26 09:58:10|7793745| 1|
| 7|2019-09-26 09:59:11|7793746| 1|
| 8|2019-09-26 10:00:10|7793747| 1|
+---+-------------------+-------+----+
如果有数百万行,则可以使用两个或三个标志值,即[1,2],将数据分为几组,然后对每个子范围应用插值。但是请使用limit_area
仅限制interpolate
。每个标志值最多有两个Null。然后,重新分配标志,以使空值被有效数据括起来,重新进行插值。
也许其他人可以考虑一种更好的方法。