我试图在AWS Glue中创建一个抓取工具。我的分析程序正在使用几个不同的分区以5分钟的批次丢弃S3中的一堆文件。它基本上创建了一个像这样的文件夹结构:
我真的想创建一个包含字符串,但似乎您只能在AWS Glue Crawler界面中执行排除字符串。我真的只想抓取Session文件夹中的文件。
如果我想获取除Session文件夹以外的所有内容,我可以这样做:
{会话} / **
我假设做了相反的事情,我只是需要这样做,但它不起作用:
{!会话} / **
任何想法/帮助?
谢谢!
答案 0 :(得分:0)
如果您只想要一个目录,我想您可以尝试以下方法:
**/[!Session]/**
如果您需要两个目录,我相信这可能有效:
**/{[!Session],[!otherdirname]}/**
您可以使用[]代替!,而不是{}。 {}用于子图案组。
看看文档:{{3}}