Question

我试图了解在Kedro中将一个节点发出的Spark数据帧转换为另一节点的输入所需的熊猫的最佳方法，而无需创建冗余转换步骤。

Answer 1

Kedro目前支持两种策略：

使用Transcoding功能

这需要您为DataCatalog中的相同数据集定义两个catalog.yml条目，并以相同格式（Parquet，JSON，CSV等）使用相同文件：

my_dataframe@spark:
  type: kedro.contrib.io.pyspark.SparkDataSet
  filepath: data/02_intermediate/data.parquet

my_dataframe@pandas:
  type: ParquetLocalDataSet
  filepath: data/02_intermediate/data.parquet

然后像这样在管道中使用它们：

Pipeline([
    node(my_func1, "spark_input", "my_dataframe@spark"),
    node(my_func2, "my_dataframe@pandas", "output"),
])

在这种情况下，kedro知道my_dataframe在两种情况下都是相同的数据集，并可以正确解析节点执行顺序。同时，kedro将使用SparkDataSet实现进行保存，并使用ParquetLocalDataSet进行加载，因此第一个节点应输出pyspark.sql.DataFrame，而第二个节点将收到{ {1}}。

使用Pandas to Spark和Spark to Pandas节点装饰器

注意： pandas.Dataframe出于内存需求notorious，因此仅在已知数据帧较小的情况下才是可行的选择。

可以按照文档装饰节点：

Spark <-> Pandas

甚至整个管道：

from spark import get_spark
from kedro.contrib.decorators import pandas_to_spark

@pandas_to_spark(spark_session)
def my_func3(data):
    data.show() # data is pyspark.sql.DataFrame

如何将Spark数据帧转换为熊猫并返回Kedro？

1 个答案:

使用Transcoding功能

使用Pandas to Spark和Spark to Pandas节点装饰器