使用tf.data API同时预处理n个文件

时间:2019-06-01 14:28:42

标签: tensorflow tensorflow-datasets

我想使用tf.data.experimental.parallel_interleave同时预处理n个文件。 cycle_length参数用于此目的,但是此参数的最大值是多少?我的CPU有8个内核和16个线程。

1 个答案:

答案 0 :(得分:1)

根据tf.data.experimental.parallel_interleave上的官方文档

  

与tf.data.Dataset.interleave不同,它从cycle_length获取元素   并行嵌套数据集

  

cycle_length:要从中交织的输入数据集的数量   平行。

因此,基本上,一个合理的参数是数据集元素的数量,这些元素将被并行处理。这样,它与CPU内核/线程无关