应用错误收集

我正在编写一个scala脚本来从黑客新闻API下载所有项目。有大约12M个项目，每个项目都是〜200字节的JSON。

我发现了以下问题：

存储数据：我试图将每个项目保存为单个JSON文件，但只是几乎没有列出它们（使用Linux，ext4文件系统）变得非常困难。所以我把它改成只是将JSON项附加到多个（100）文件（通过获取项目的id模块100）。
跟踪已下载的内容，因为我希望能够停止/继续该应用程序。首先，我尝试将下载的id写入文本文件，但结果有点儿错误。所以现在我只是阅读所有项目并收集ID。（它有效。）

所有这一切都是由1名主演员和任意数量的工人演员（数十名）完成的。大师有一个队列[Int]并弹出它，工人要求工作。

我遇到的问题相当简单，但我还没能以一种很好的方式解决它。

我可以从列表中已下载的项目中收集ID。但我真正需要的是对那一套的补充;我需要所有未下载的项目，最高项目ID。

我尝试使用范围（1到maxItemId）并减去已完成的作业集，但它确实很慢。太快了。

现在我正在使用Stream，当一个工作人员要求工作时，我会检查流（下一个工作）是否已经完成。如果是这样，我会把它交给工人。否则我会检查下一个。

这种方法的问题在于，如果失败，我就无法将作业放回流中。使用Queue会很容易;但是我再次设置数百万项的队列时遇到了麻烦。

对此更好的方法是什么？我不认为这里的问题是微不足道的，这是要执行和跟踪的大量任务，但它也不应该那么难。

谢谢！