在苗条的数据API中,我们必须传递文件名模式,通过该文件名模式可以对数据文件列表进行训练。它是通过在Dataset
中传递的DatasetDataProvider
类对象来完成的。但是,其中一个参数num_readers
允许并行读取多个文件。
因此,对于num_readers=2
,假设3个数据文件名具有相同的模式和示例数分别为100、1000和200,它将开始从第1个文件和第2个文件开始并行读取。现在,假设从第一个文件中读取了数据,然后连续读取并耗尽了第三个文件,总共有300个示例,还有700个示例需要从第二个文件中读取。
现在的问题是,DatasetDataProvider
将与当前正在主动读取的带有1000个示例的第二个文件一起被选择读取哪个文件?是否会选择不选择第二个文件来避免重复数据,因为这将是并行文件读取器对象的重复?