在我开发的应用程序中,我需要执行大量的REST调用。我需要与之交互的REST API资源的体系结构是分层的,如下所示:
/api/continents - return list of all Earth's continents
/api/continents/{continent_name}/countries - return list of all countries on mentioned continent
/api/continents/{continent_name}/countries/{country_name}/cities - return list of all cities in mentioned country
不幸的是,此API没有提供任何方法来获取所有城市的信息,我首先需要获取所有大洲的列表,之后需要获取每个大洲的所有国家/地区列表,然后再获取针对该城市的所有城市列表每个大陆的每个国家。
首先,我尝试实现从该API获取所有城市的方法,而无需仅通过连续调用进行并行化。像这样:
private List<City> getCities() {
List<Continent> continents = getAllContinents(); //HTTP GET call
List<Country> countries = new ArrayList<>();
for (Continent continent: continents) {
countries.addAll(getAllCountriesOfContinent(continent));
}
List<City> cities = new ArrayList<>();
for (Country country : countries) {
cities.addAll(getAllCitiesOfCountry(country));
}
return cities;
}
但是这种方法工作太慢(具体执行时间约为7小时)。我决定尝试使用Java并行流和CompletableFuture对其进行改进,并获得了以下方法:
private List<City> getCities() {
return getAllContinents()
.parallelStream()
.map(continent -> getAllCountriesOfContinent(continent))
.flatMap(feature -> feature.join().parallelStream())
.map(country -> getAllCitiesOfCountry(country))
.flatMap(feature -> feature.join().parallelStream())
.collect(Collectors.toList());
}
其中getAllCountriesOfContinent和getAllCitiesOfCountry方法返回了CompletableFuture列表,并且看起来像:
private CompletableFuture<List<Country>> getAllCountriesOfContinent(Continent continent) {
return CompletableFuture.supplyAsync(() -> {
return restClient.getDataFromApi(continent);
});
}
private CompletableFuture<List<City>> getAllCitiesOfCountry(Country country) {
return CompletableFuture.supplyAsync(() -> {
return restClient.getDataFromApi(country);
});
}
通过这样的重构,我获得了不错的性能提升(执行了大约25-30分钟)。但是我认为我可以使用Java ThreadPoolExecutors和Threads或ForkJoin框架对其进行进一步的改进。这样的方法是否可以帮助我提高代码的性能,或者还有其他一些特殊的技术/算法/框架?
答案 0 :(得分:2)
这样的方法会帮助我提高性能吗?
答案是:可能。
您会看到parallelStream()
为您提供了多线程的“默认”实现(在幕后,此操作实际上使用了ForkJoin框架)。
换句话说:您总是可以退后一步,投入大量时间进行实验,在此您可以使用不同的低层方法,并测量相应的结果。是的,很可能,当您花1周的时间对算法进行微调时,您应该最终能够得到比依赖Java必须提供的“默认实现”更好的东西。
但是,您获得了多少改进,以及需要多长时间才能达到目标,这很难预测。
因此,真正的答案是:
答案 1 :(得分:1)
我觉得这里的多线程并不是正确的工具,因为这是网络通信问题,而不是计算问题。
特别是因为Java缺少协程,parallelStream可能是一次管理飞行中的多个HTTP请求的不错且合理的选择,但这并不是您应该关注的解决方案中最重要的部分。
您应该关注的是网络详细信息,而不是CPU详细信息。这种情况尤其使我想起了HTTP / 2,它应该允许多个这样的请求同时发送。您还应该查看早期版本支持的HTTP管道传输,但安装起来要复杂得多。