如何创建一个空的数据集

时间:2019-05-22 08:28:59

标签: dataframe pyspark increment

为了表的历史化,我使用了增量表。在其中,我将输出用作输入,当输出已经存在时,一切正常,但是如果数据框不存在,则会出现问题。

我已经基于输入模式声明了输出模式,但是如何初始化呢?

output=Output('/HELLO"])),
AA=Input("/AAAAAAA"),
BB=Input("/B"]))


def my_compute_function(BB, AA, output):

AA = AA.dataframe()
BB = BB.dataframe()
DD = output.dataframe('previous', schema = AA.schema)

BB = BB.filter(col('sold')='100').dropDuplicates()
BB = BB.select('sold')
CC = BB.join(AA, 'sold', 'left')
CC2 = CC.withColumnRenamed('sold', 'sold_current')
CC2 = CC2.select('sold_current')

DD = DD.join(CC2, [col('sold') == col('sold_current')], 'left')
DD_2 = CC.union(DD)

output.set_mode('replace')
output.write_dataframe(DD_2)

Pyspark返回:“缺少随机播放6的输出位置”

0 个答案:

没有答案