我在不同的hdfs dir(dir1,dir2)中拥有两部分数据(相同结构)。 我需要过滤dir1中的数据,然后合并dir2中的数据。 我在https://www.tensorflow.org/api_docs/python/tf/data/Dataset中找不到联合API。
neg_data_set = tf.data.Dataset.list_files(ctr_file_patterns) \
.interleave(
lambda file_path : tf.data.TFRecordDataset(file_path),
cycle_length = 2,
block_length = batch_size,
num_parallel_calls = 2
) \
.map(lambda byte_list : parse_sample(byte_list, get_feature_description())) \
.filter(lambda example: tf.math.equal(example['label'],0)) \
.map(lambda example: (example, example['label']))
pos_data_set = tf.data.Dataset.list_files(cvr_file_patterns) \
.interleave(
lambda file_path : tf.data.TFRecordDataset(file_path),
cycle_length = 2,
block_length = batch_size,
num_parallel_calls = 2
) \
.map(lambda byte_list : parse_sample(byte_list, get_feature_description())) \
.map(lambda example: (example, tf.constant(1, dtype=tf.int64)))