Question

此代码搜索特定文件：

Stream<Path> findMyFile = Files.find(Paths.get("c:\\temp\\pathtest"), Integer.MAX_VALUE,(p, a) -> p.endsWith("test.txt") && a.isRegularFile());

Stream<Path> findMyFileSecond = Files.walk(Paths.get("c:\\temp\\pathtest"),Integer.MAX_VALUE).filter(p -> p.endsWith("test.txt"));

findMyFile.forEach(System.out::println);
findMyFileSecond.forEach(System.out::println);

两个结果都包含相同的文件，两种方法几乎在同一时间内完成。 JavaDoc说：

此方法以完全按照指定的方式遍历文件树 * #walk walk方法与调用相比 * java.util.stream.Stream＃过滤器对Stream进行过滤 *由{@code walk}方法返回，这个方法可能更有效率 *避免重复检索BasicFileAttributes

我应该何时将walk与filter结合使用，何时使用find？什么是最佳做法？

Answer 1

TL; DR：如果您需要按属性过滤文件/目录，请使用Files.find()，如果您不需要按文件属性过滤，请使用Files.walk()。

详细信息

有一个轻微差异，该差异实际上在文档中得到了解释，但是以某种方式感觉是完全错误的。阅读源代码可以使它变得清晰：

Files.find：

return StreamSupport.stream(...)
                        .onClose(iterator::close)
                        .filter(entry -> matcher.test(entry.file(), entry.attributes()))
                        .map(entry -> entry.file());

Files.walk：

return StreamSupport.stream(...)
                        .onClose(iterator::close)
                        .map(entry -> entry.file());

这意味着，如果最终需要使用过滤器来获取和验证文件属性，则File.find可能会更快。这是因为使用File.walk时，您的过滤器回调将需要额外的调用，例如Files.readAttributes(file, BasicFileAttributes.class)，而使用File.find时-属性已被检索并在过滤器回调中提供给您。

我只是通过搜索仅文件（即不包括文件夹），对Windows上的示例10K文件中的许多文件夹结构进行了测试：

// pre-Java7/8 way via recursive listFiles (8037 files returned): 1521.657 msec.
for (File f : new File(dir).listFiles()) {
    if (f.isDirectory()) {
        _getFiles(files, path, pattern);
    } else {
        ...
    }
}

// Files.walk(8037 files returned): 1575.766823 msec.
try (Stream<Path> stream = Files.walk(path, Integer.MAX_VALUE) {
    files = stream.filter(p -> {
        if (Files.isDirectory(p)) { return false; } // this extra check makes it much slower than Files.find
        ... 
    }).map(p -> p.toString()).collect(Collectors.toList());
}

// Files.find(8037 files returned): 27.606675 msec.
try (Stream<Path> stream = Files.find(path, Integer.MAX_VALUE, (p, a) -> !a.isDirectory())) {
    files = stream.filter(p -> { ... }).map(p -> p.toString()).collect(Collectors.toList());
}

// Files.walkFileTree(8037 returned): 27.443974 msec.
Files.walkFileTree(new File(path).toPath(), new SimpleFileVisitor<Path>() { 
    @Override
    public FileVisitResult visitFile(Path p, BasicFileAttributes attrs) throws IOException {
        ...
        return FileVisitResult.CONTINUE;
    }
});

Answer 2

如果您需要在应用过滤器或并行化流之前对目录列表应用某些中间操作，我相信walk()会很有用。

Files.walk.filter和Files.find有什么区别？

2 个答案: