有没有办法合并张量流数据集的两个数据集?

时间:2020-08-27 13:48:58

标签: tensorflow-datasets

我在不同的hdfs dir(dir1,dir2)中拥有两部分数据(相同结构)。 我需要过滤dir1中的数据,然后合并dir2中的数据。 我在https://www.tensorflow.org/api_docs/python/tf/data/Dataset中找不到联合API。

neg_data_set = tf.data.Dataset.list_files(ctr_file_patterns) \
    .interleave(
            lambda file_path : tf.data.TFRecordDataset(file_path),
            cycle_length = 2,
            block_length = batch_size,
            num_parallel_calls = 2
    ) \
    .map(lambda byte_list : parse_sample(byte_list, get_feature_description())) \
    .filter(lambda example: tf.math.equal(example['label'],0)) \
    .map(lambda example: (example, example['label']))


pos_data_set = tf.data.Dataset.list_files(cvr_file_patterns) \
    .interleave(
            lambda file_path : tf.data.TFRecordDataset(file_path),
            cycle_length = 2,
            block_length = batch_size,
            num_parallel_calls = 2
    ) \
    .map(lambda byte_list : parse_sample(byte_list, get_feature_description())) \
    .map(lambda example: (example, tf.constant(1, dtype=tf.int64)))

0 个答案:

没有答案