如何在Tensorflow Extension中读取多个csv?

时间:2019-05-22 22:15:08

标签: python tensorflow tfx

我已经阅读了很多Tensorflow Extension(TFX),并想尝试使用它。

我在ExampleGen组件中注意到ExampleGen可以与csvs,BigQuery和现有的TFRecord文件一起使用。这有点有限,但是很好。

我想知道从多个csv将数据加载到ExampleGen的正确方法是什么?假设我有一个用于用户的csv和一个用于销售的csv,我想将它们都加载到我的管道中,在该管道中,转换步骤中的特征工程将以某种有意义的方式合并两个csv。在文档中可以找到ExampleGen的现有示例:

https://www.tensorflow.org/tfx/guide/examplegen

,建议的代码如下:

from tfx.utils.dsl_utils import csv_input
from tfx.components.example_gen.csv_example_gen.component import CsvExampleGen

examples = csv_input(os.path.join(base_dir, 'data/simple'))
example_gen = CsvExampleGen(input_base=examples) 

加载多个csv以发出tf的最佳方法是什么?ExampleGen预期将返回的示例记录?还是以某种方式将多个csv组合为一个csv的最佳实践?

我想最明显的答案是为每个csv建立以下代码:

examples = csv_input(os.path.join(base_dir, 'data/simple'))
example_gen = CsvExampleGen(input_base=examples) 

但是最后我将有一个CsvExampleGen对象列表。我读到Transform期望“来自ExampleGen组件的tf.Examples”,听起来好像可以处理多个tf.Examples,但是我不知道在传递给Transform之前是否需要以某种方式对它们进行压缩或合并。 / p>

0 个答案:

没有答案