Question

我正在使用Google Cloud Java API从Google云端存储（GCS）中获取对象。代码如下：

Storage storage = ...
List<StorageObject> storageObjects = storage.objects().list(bucket).execute().getItems();

但是这不会返回GCS存储桶中的所有项目（存储对象），它只返回第一个“页面”中的前1000个项目。因此，为了获得下一个1000项，应该做：

Storage.Objects.List list = storage.objects().list(bucket).execute();
String nextPageToken = objects.getNextPageToken();
List<StorageObject> itemsInFirstPage = objects.getItems();

if (nextPageToken != null) {
    // recurse
}

我想要做的是在遍历GCS存储桶中的所有项目时找到与Predicate匹配的项目，直到谓词匹配为止。为了提高效率，我只想在当前页面中找不到该项时才加载下一页中的项目。对于单个页面，这有效：

Predicate<StorageObject> matchesItem = ...
takeWhile(storage.objects().list(bucket).execute().getItems().stream(), not(matchesItem));

从here复制takeWhile。

这将以递归方式从所有页面加载存储对象：

private Stream<StorageObject> listGcsPageItems(String bucket, String pageToken) {
    if (pageToken == null) {
        return Stream.empty();
    }


    Storage.Objects.List list = storage.objects().list(bucket);
    if (!pageToken.equals(FIRST_PAGE)) {
        list.setPageToken(pageToken);
    }
    Objects objects = list.execute();
    String nextPageToken = objects.getNextPageToken();
    List<StorageObject> items = objects.getItems();
    return Stream.concat(items.stream(), listGcsPageItems(bucket, nextPageToken));    
}

其中FIRST_PAGE只是一个“魔术”String，指示该方法不设置特定页面（这将导致第一页项目）。

这种方法的问题在于它是急切的，即在应用“匹配谓词”之前加载所有页面中的所有项目。我希望这是懒惰的（一次一页）。我怎样才能做到这一点？

Answer 1

我会实现自定义Iterator<StorageObject>或Supplier<StorageObject>，这会将当前页面列表和下一页令牌保持在其内部状态，逐个生成StorageObject。

然后我将使用以下代码查找第一个匹配项：

Optional<StorageObject> result =
    Stream.generate(new StorageObjectSupplier(...))
        .filter(predicate)
        .findFirst();

只有在找到匹配项后才会调用供应商，即懒惰。

另一种方法是逐页实施供应商，即class StorageObjectPageSupplier implements Supplier<List<StorageObject>>并使用流API来展平它：

Optional<StorageObject> result =
    Stream.generate(new StorageObjectPageSupplier(...))
        .flatMap(List::stream)
        .filter(predicate)
        .findFirst();

Lazily递归Java 8流

1 个答案: