Question

我有一个s3存储桶，我正在尝试抓取和编目。格式是这样的，其中SQL文件是与不同数据文件的模式匹配的DDL查询（CREATE TABLE语句），即data1，data2等。）

s3://my-bucket/somedata/20180101/data1/stuff.txt.gz
s3://my-bucket/somedata/20180101/data2/stuff.txt.gz
s3://my-bucket/somedata/20180101/data1.sql
s3://my-bucket/somedata/20180101/data2.sql  
s3://my-bucket/somedata/20180102/data1/stuff.txt.gz
s3://my-bucket/somedata/20180102/data2/stuff.txt.gz
...

我只想对data1进行编目，因此我尝试使用exclude patterns in the Glue Crawler - 请参阅下文 - 即*.sql和data2/*。

不幸的是，抓取工具仍在对s3://my-bucket/somedata/的根路径中的所有内容进行分类。我可以生活data2编目;我对sql文件最关心/烦恼。

任何人都有排除模式的经验或能够指出这里有什么问题吗？

Answer 1

排除模式中的*不能跨目录，但是**可以跨目录。

要排除所有.sql个文件，您可以使用：**.sql

您的data2/*排除项的完整路径为s3://my-bucket/somedata/data2/*，但缺少日期分区文件夹。为此，可以在前面添加*。

要排除data2/目录，请使用：*/data2/*

Answer 2

此外，排除文件夹模式-
排除模式：folder_n ** / **（不包括所有以“ folder_n”开头的文件夹）

胶水爬虫排除模式

2 个答案: