应用错误收集

在苗条的数据API中，我们必须传递文件名模式，通过该文件名模式可以对数据文件列表进行训练。它是通过在Dataset中传递的DatasetDataProvider类对象来完成的。但是，其中一个参数num_readers允许并行读取多个文件。

因此，对于num_readers=2，假设3个数据文件名具有相同的模式和示例数分别为100、1000和200，它将开始从第1个文件和第2个文件开始并行读取。现在，假设从第一个文件中读取了数据，然后连续读取并耗尽了第三个文件，总共有300个示例，还有700个示例需要从第二个文件中读取。

现在的问题是，DatasetDataProvider将与当前正在主动读取的带有1000个示例的第二个文件一起被选择读取哪个文件？是否会选择不选择第二个文件来避免重复数据，因为这将是并行文件读取器对象的重复？