PySpark和AWS Glue的新功能。我需要检索字段名称和数据类型以在程序中使用它们。我可以打印DynamicFrame.schema()的结果,该结果似乎是一个类似于JSON的结构。我尝试了json.loads来查看结构是否可以转换为Python字典,所以我可以对其进行迭代,但是遇到了这个错误- TypeError:预期的字符串或缓冲区 ------------------------------ *
AWS Glue文档没有指出schema()的返回类型。谢谢。
答案 0 :(得分:0)
您可以使用DynamicFrame.schema().field_map
来获取所有字段及其类型的字典:
{'field_map':
{'PersonId': Field(PersonId, IntegerType({}), {}),
'ChangeId': Field(ChangeId, LongType({}), {}),
'CreateDate': Field(CreateDate, TimestampType({}), {}),)},
'fields':
[Field(PersonId, IntegerType({}), {}),
Field(ChangeId, LongType({}), {}),
Field(CreateDate, TimestampType({}), {})],
'properties'