标签: hadoop amazon-s3
确定Hadoop [listFiles(directoryPath)][1]函数的行为时遇到了一些麻烦。
[listFiles(directoryPath)][1]
比方说,我的S3存储桶包含数百万个对象,但是只有几个带有键前缀abc/的对象。如果我调用listFiles('/abc'),Hadoop将遍历存储桶中的所有键来查找这些文件,还是能够匹配并仅遍历这几个键?
abc/
listFiles('/abc')
如果Hadoop必须遍历所有键才能进行这种类型的搜索,那么有什么更有效的方法来存储这些对象,以便我可以进行快速模式匹配查找?