将pyspark数据框转换为动态数据框

时间:2019-09-24 05:48:59

标签: pyspark aws-glue pyspark-dataframes

我有一个pyspark数据框。我能够通过persons.toDF()将动态数据框转换为spark数据框。我想将spark数据框再次转换回pyspark中的动态数据框。我想将列转换为时间戳,然后再次将其转换为动态数据框以解决resolveChoices。 请帮助我

2 个答案:

答案 0 :(得分:1)

至少你需要 pyspark.context、awsglue.context 和 awsglue.dynamicframe 有例子:

from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.dynamicframe import DynamicFrame

sc = SparkContext()
glueContext = GlueContext(sc)

NewDynamicFrame = DynamicFrame.fromDF(persons, glueContext, "nested")

“persons”是你的数据帧

请检查以下链接:

  1. https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-samples-medicaid.html

  2. https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-pyspark-extensions-dynamic-frame.html#aws-glue-api-crawler-pyspark-extensions-dynamic-frame-fromDF

答案 1 :(得分:0)

您可以使用fromDF函数从数据帧创建动态帧。

基本语法

dyf = fromDF(dataframe, glue_ctx, name)

哪里

  • 数据帧–要转换的Apache Spark SQL数据帧(必需)。

  • glue_ctx –指定此转换上下文的GlueContext类对象(必需)。

  • name –生成的DynamicFrame的名称(必需)。

参考:Dynamic frame from dataframe

相关问题