我试图了解在Kedro中将一个节点发出的Spark数据帧转换为另一节点的输入所需的熊猫的最佳方法,而无需创建冗余转换步骤。
答案 0 :(得分:2)
Kedro目前支持两种策略:
这需要您为DataCatalog
中的相同数据集定义两个catalog.yml
条目,并以相同格式(Parquet,JSON,CSV等)使用相同文件:>
my_dataframe@spark:
type: kedro.contrib.io.pyspark.SparkDataSet
filepath: data/02_intermediate/data.parquet
my_dataframe@pandas:
type: ParquetLocalDataSet
filepath: data/02_intermediate/data.parquet
然后像这样在管道中使用它们:
Pipeline([
node(my_func1, "spark_input", "my_dataframe@spark"),
node(my_func2, "my_dataframe@pandas", "output"),
])
在这种情况下,kedro
知道my_dataframe
在两种情况下都是相同的数据集,并可以正确解析节点执行顺序。同时,kedro
将使用SparkDataSet
实现进行保存,并使用ParquetLocalDataSet
进行加载,因此第一个节点应输出pyspark.sql.DataFrame
,而第二个节点将收到{ {1}}。
注意: pandas.Dataframe
出于内存需求notorious,因此仅在已知数据帧较小的情况下才是可行的选择。>
可以按照文档装饰节点:
Spark <-> Pandas
甚至整个管道:
from spark import get_spark
from kedro.contrib.decorators import pandas_to_spark
@pandas_to_spark(spark_session)
def my_func3(data):
data.show() # data is pyspark.sql.DataFrame