我正在开发一个托管在Github页面上的数据可视化React应用,该应用从我不拥有的公共github存储库中提取数据。我需要找到有关如何提取数据的最佳解决方案。
它包含约3k个文本文件,只有几个kB,都在单个文件夹中。文件名与它们的ID相对应,这对于按名称搜索不是理想的选择,因此,我的第一种方法是在有人打开页面时全部请求它们。事实证明,此解决方案的速度很慢,而且由于我无法从github api(最大1k)中获取完整的文件夹内容,而无法获取完整的文件夹内容,因此我被迫发送许多不存在文件的请求,然后再从中循环到0。
我尝试并行运行请求,每次都使页面崩溃。然后我尝试向他们发送串行文件,该过程花费了很长时间,但工作正常。我还尝试了以5个并行任务为一组的顺序发送序列,但是我还没有使代码正常工作,但是我认为这样做应该有所帮助。
您能提出其他更好的选择吗?理想情况下,我可以保留一些有关名称到ID绑定的本地数据,这将使我不必只下载用户在应用程序中搜索的所有文件。问题是当引用的存储库更新时,本地数据可能会过时。由于它托管在github页面上,也许我可以以某种方式自动从该存储库中提取内容并将更改处理到我的存储库中的本地文件中,但是我不知道这怎么可能。