我有一个s3存储桶,我正在尝试抓取和编目。格式是这样的,其中SQL文件是与不同数据文件的模式匹配的DDL查询(CREATE TABLE
语句),即data1
,data2
等。)
s3://my-bucket/somedata/20180101/data1/stuff.txt.gz
s3://my-bucket/somedata/20180101/data2/stuff.txt.gz
s3://my-bucket/somedata/20180101/data1.sql
s3://my-bucket/somedata/20180101/data2.sql
s3://my-bucket/somedata/20180102/data1/stuff.txt.gz
s3://my-bucket/somedata/20180102/data2/stuff.txt.gz
...
我只想对data1
进行编目,因此我尝试使用exclude patterns in the Glue Crawler - 请参阅下文 - 即*.sql
和data2/*
。
不幸的是,抓取工具仍在对s3://my-bucket/somedata/
的根路径中的所有内容进行分类。我可以生活data2
编目;我对sql
文件最关心/烦恼。
任何人都有排除模式的经验或能够指出这里有什么问题吗?
答案 0 :(得分:4)
排除模式中的*
不能跨目录,但是**
可以跨目录。
要排除所有.sql
个文件,您可以使用:**.sql
您的data2/*
排除项的完整路径为s3://my-bucket/somedata/data2/*
,但缺少日期分区文件夹。为此,可以在前面添加*
。
要排除data2/
目录,请使用:*/data2/*
答案 1 :(得分:-1)
此外,排除文件夹模式-
排除模式:folder_n ** / **(不包括所有以“ folder_n”开头的文件夹)