在AWS Glue Crawler中编写glob排除字符串

时间:2018-04-04 23:10:33

标签: glob aws-glue

我试图在AWS Glue中创建一个抓取工具。我的分析程序正在使用几个不同的分区以5分钟的批次丢弃S3中的一堆文件。它基本上创建了一个像这样的文件夹结构:

  1. 分析
    • 2018-03-27T00:00:00.000Z
      • 会话
      • 搜索
      • DirectURL
      • PageData
    • 2018-03-27T00:00:05.000Z
      • 会话
      • 搜索
      • DirectURL
      • PageData
  2. 我真的想创建一个包含字符串,但似乎您只能在AWS Glue Crawler界面中执行排除字符串。我真的只想抓取Session文件夹中的文件。

    如果我想获取除Session文件夹以外的所有内容,我可以这样做:

    {会话} / **

    我假设做了相反的事情,我只是需要这样做,但它不起作用:

    {!会话} / **

    任何想法/帮助?

    谢谢!

1 个答案:

答案 0 :(得分:0)

如果您只想要一个目录,我想您可以尝试以下方法:

**/[!Session]/**

如果您需要两个目录,我相信这可能有效:

**/{[!Session],[!otherdirname]}/**

您可以使用[]代替!,而不是{}。 {}用于子图案组。

看看文档:{​​{3}}