我已经定义/设置了搜寻器,以读取和分类S3存储桶中的avro文件。但是搜寻器/分类器无法读取字段的“ doc”属性,因此它在目录中创建具有字段名称和相应数据类型但没有doc字段值的架构。我正在探索创建自定义分类器的选项,该分类器将读取并填充字段的doc属性及其名称和类型。我查看了AWS官方文档,但未找到有关如何执行操作的任何信息/示例。谢谢。
答案 0 :(得分:0)
您好,您可能想在这里检查它:https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html
您可以提供一个自定义分类器,以对AWS Glue中的数据进行分类。 您可以使用grok模式,XML标签, JavaScript对象表示法(JSON)或逗号分隔值(CSV)。一个 AWS Glue搜寻器调用自定义分类器。如果分类 识别数据后,它会返回数据的分类和架构 数据到搜寻器。如果可能,您可能需要定义一个自定义分类器 您的数据与任何内置分类器都不匹配,或者如果您想 自定义搜寻器创建的表。