AWS Glue自定义分类器

时间:2019-06-10 16:02:29

标签: aws-glue glue aws-glue-data-catalog

我已经定义/设置了搜寻器,以读取和分类S3存储桶中的avro文件。但是搜寻器/分类器无法读取字段的“ doc”属性,因此它在目录中创建具有字段名称和相应数据类型但没有doc字段值的架构。我正在探索创建自定义分类器的选项,该分类器将读取并填充字段的doc属性及其名称和类型。我查看了AWS官方文档,但未找到有关如何执行操作的任何信息/示例。谢谢。

1 个答案:

答案 0 :(得分:0)

您好,您可能想在这里检查它:https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html

  

您可以提供一个自定义分类器,以对AWS Glue中的数据进行分类。   您可以使用grok模式,XML标签,   JavaScript对象表示法(JSON)或逗号分隔值(CSV)。一个   AWS Glue搜寻器调用自定义分类器。如果分类   识别数据后,它会返回数据的分类和架构   数据到搜寻器。如果可能,您可能需要定义一个自定义分类器   您的数据与任何内置分类器都不匹配,或者如果您想   自定义搜寻器创建的表。