dataframe - 如何创建一个空的数据集

为了表的历史化，我使用了增量表。在其中，我将输出用作输入，当输出已经存在时，一切正常，但是如果数据框不存在，则会出现问题。

我已经基于输入模式声明了输出模式，但是如何初始化呢？

output=Output('/HELLO"])),
AA=Input("/AAAAAAA"),
BB=Input("/B"]))


def my_compute_function(BB, AA, output):

AA = AA.dataframe()
BB = BB.dataframe()
DD = output.dataframe('previous', schema = AA.schema)

BB = BB.filter(col('sold')='100').dropDuplicates()
BB = BB.select('sold')
CC = BB.join(AA, 'sold', 'left')
CC2 = CC.withColumnRenamed('sold', 'sold_current')
CC2 = CC2.select('sold_current')

DD = DD.join(CC2, [col('sold') == col('sold_current')], 'left')
DD_2 = CC.union(DD)

output.set_mode('replace')
output.write_dataframe(DD_2)

Pyspark返回：“缺少随机播放6的输出位置”

如何创建一个空的数据集

0 个答案: