Question

PySpark和AWS Glue的新功能。我需要检索字段名称和数据类型以在程序中使用它们。我可以打印DynamicFrame.schema（）的结果，该结果似乎是一个类似于JSON的结构。我尝试了json.loads来查看结构是否可以转换为Python字典，所以我可以对其进行迭代，但是遇到了这个错误- TypeError：预期的字符串或缓冲区 ------------------------------ *

AWS Glue文档没有指出schema（）的返回类型。谢谢。

Answer 1

您可以使用DynamicFrame.schema().field_map来获取所有字段及其类型的字典：

 {'field_map': 
   {'PersonId': Field(PersonId, IntegerType({}), {}),
    'ChangeId': Field(ChangeId, LongType({}), {}),
    'CreateDate': Field(CreateDate, TimestampType({}), {}),)},
 'fields': 
    [Field(PersonId, IntegerType({}), {}),
    Field(ChangeId, LongType({}), {}),
    Field(CreateDate, TimestampType({}), {})],
    'properties'

以编程方式检索AWS Glue动态框架字段名称和数据类型

1 个答案: