是否可以为Parquet文件创建grok分类器?如果是这样,我在哪里可以找到示例?
我正在使用AWS Glue目录,并且试图在Parquet文件之上创建外部表。我希望分类器根据文件的某一列来分割文件。
我的所有文件都具有“表”列,并且文件中的所有记录都具有相同的表。
我的S3结构是这样的
- s3://my-bucket/my-prefix/table1/...
- s3://my-bucket/my-prefix/table2/...
答案 0 :(得分:0)
否,分类器不用于条件解析数据和移至其他表。
您可以编写lambda / ecs / glue-job(取决于处理时间),该文件将获取这些文件并移至s3存储桶中的逐表文件夹。例如s3-data-lake / inestion / table1,s3-data-lake / inestion / table2等。然后,您可以在s3-data-lake / ingestion /上运行搜寻器,这将创建所有粘合表。