DatasetDataProvider中“ num_readers”的行为

时间:2019-02-20 09:43:25

标签: python tensorflow

在苗条的数据API中,我们必须传递文件名模式,通过该文件名模式可以对数据文件列表进行训练。它是通过在Dataset中传递的DatasetDataProvider类对象来完成的。但是,其中一个参数num_readers允许并行读取多个文件。

因此,对于num_readers=2,假设3个数据文件名具有相同的模式和示例数分别为100、1000和200,它将开始从第1个文件和第2个文件开始并行读取。现在,假设从第一个文件中读取了数据,然后连续读取并耗尽了第三个文件,总共有300个示例,还有700个示例需要从第二个文件中读取。

现在的问题是,DatasetDataProvider将与当前正在主动读取的带有1000个示例的第二个文件一起被选择读取哪个文件?是否会选择不选择第二个文件来避免重复数据,因为这将是并行文件读取器对象的重复?

0 个答案:

没有答案