Akka流显着减少了我的样板代码,并包含许多有用的功能。但是,我需要能够限制处理项目的速度。问题是我正在提供附加到源资源链接的Hazelcast队列,以便随着时间的推移(从单个在线站点)下载,但进入队列的链接数量可能会变得非常大。理想情况下,一次运行的请求不会超过50-60个。 Akka Streams中是否有一项功能允许我一次限制正在处理的项目数量?
进一步的限制是在与某些网站交互时需要复杂的状态管理,代码处理和其他功能。 Akka Http无法在这里提供帮助。我的网络代码完全是用Jsoup和Apache Http组件编写的,偶尔会调用基于JavaFX的服务器来渲染脚本。
我目前尝试使用文档中描述的缓冲区来控制输入速率:
val sourceGraph: Graph[SourceShape[(FlowConfig, Term)], NotUsed] = new HazelcastTermSource(conf.termQueue, conf)
val source = Source.fromGraph(sourceGraph)
val (killSwitch, last) = source
.buffer(conf.crawlStreamConf.maxCrawlConcurrency, OverflowStrategy.backpressure)
.viaMat(new DownloadFlow())(Keep.both)
.map(x => println(x))
.to(Sink.ignore).run()
答案 0 :(得分:4)
您正在寻找的机制是mapAsync
(或mapAsyncUnordered
,如果不需要保留排序 - 就像您的示例一样)。
这些组合器采用parallelism
参数,其目的是限制阶段可以运行的并行任务的数量。
它应该成为您DownloadFlow
的一部分。
假设您的DownloadFlow
运行异步代码,您可以像这样构建它:
def download(input: Input): Future[Output] = ???
val downloadFlow: Flow[Input, Output, NotUsed] = Flow[Input].mapAsyncUnordered(50)(download)
val (killSwitch, last) = source
.buffer(conf.crawlStreamConf.maxCrawlConcurrency, OverflowStrategy.backpressure)
.viaMat(downloadFlow)(Keep.both)
.map(x => println(x))
.to(Sink.ignore).run()
由于您的下载流程具有有意义的物化价值,因此可能会稍微复杂一些,但希望您能够理解。
有关详细信息,请参阅docs。