在Tensorflow的数据集API中,如何将一个元素映射到多个元素?

时间:2018-01-27 02:08:27

标签: python tensorflow tensorflow-datasets

在tensorflow <link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" crossorigin="anonymous"> <div class="container"> <div class="row"> <div class="btn-group dropright"> <button type="button btn-class" class="btn btn-secondary dropdown-toggle btn-block" data-toggle="dropdown" aria-haspopup="true" aria-expanded="false"> Dropright </button> <div class="dropdown-menu"> <!-- Dropdown menu links --> <div class="form-check form-check-inline"> <label class="form-checka-label" for="inlineCheckbox1"><input class="form-check-input" type="checkbox" id="inlineCheckbox1" value="option1"> 1</label> </div> <div class="form-check form-check-inline"> <label class="form-check-label" for="inlineCheckbox2"><input class="form-check-input" type="checkbox" id="inlineCheckbox2" value="option2"> 2</label> </div> <div class="form-check form-check-inline"> <label class="form-check-label" for="inlineCheckbox3"><input class="form-check-input" type="checkbox" id="inlineCheckbox3" value="option3" disabled> 3 (disabled)</label> </div> </div> </div> </div> <div class="row"> <div class="container"></div> </div> </div> <script src="https://ajax.googleapis.com/ajax/libs/jquery/1.12.4/jquery.min.js"></script> <script src="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/js/bootstrap.min.js" integrity="sha384-Tc5IQib027qvyjSMfHjOMaLkfuWVxZxUPnCJA7l2mCWNIpG9mGCD8wGNIcPD7Txa" crossorigin="anonymous"></script>管道中,我想定义一个自定义地图函数,它接受一个输入元素(数据样本)并返回多个元素(数据样本)。

以下代码是我的尝试,以及所需的结果。

我无法完全按照Dataset上的文档来了解它是否适​​用于此处。

tf.data.Dataset().flat_map()

结果:

import tensorflow as tf

input = [10, 20, 30]

def my_map_func(i):
  return [[i, i+1, i+2]]       # Fyi [[i], [i+1], [i+2]] throws an exception

ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.map(map_func=lambda input: tf.py_func(
  func=my_map_func, inp=[input], Tout=[tf.int64]
))
element = ds.make_one_shot_iterator().get_next()

with tf.Session() as sess:
  for _ in range(9):
    print(sess.run(element))

期望的结果:

(array([10, 11, 12]),)
(array([20, 21, 22]),)
(array([30, 31, 32]),)

3 个答案:

答案 0 :(得分:4)

要实现这一目标还需要两个步骤。首先,map函数需要返回一个numpy数组,而不是一个列表。

然后,您可以使用inputflat_map相结合来展平它们。下面的代码现在产生了所需的结果:

在Tensorflow 1.5中测试(复制/粘贴可运行示例)

Dataset().from_tensor_slices()

如果要返回多个变量,这是一个执行此操作的方法,在此示例中,我输入一个字符串(如文件名)并输出字符串和整数的倍数。在这种情况下,我为[10,20,30]的每个整数重复字符串。

复制/粘贴runnable示例:

import tensorflow as tf
import numpy as np

input = [10, 20, 30]

def my_map_func(i):
  return np.array([i, i + 1, i + 2])

ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.map(map_func=lambda input: tf.py_func(
  func=my_map_func, inp=[input], Tout=[tf.int64]
))
ds = ds.flat_map(lambda x: tf.data.Dataset().from_tensor_slices(x))

element = ds.make_one_shot_iterator().get_next()

with tf.Session() as sess:
  for _ in range(9):
    print(sess.run(element))

答案 1 :(得分:1)

使用flat_mapfrom_tensor_slices的干净解决方案

import tensorflow as tf

input = [10, 20, 30]

ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.flat_map(lambda x: tf.data.Dataset.from_tensor_slices([x, x+1, x+2]))
element = ds.make_one_shot_iterator().get_next()

with tf.Session() as sess:
    for _ in range(9):
        print(sess.run(element))

# 10
# 11
# 12
# 20
# 21
# 22
# 30
# 31
# 32

答案 2 :(得分:1)

只需补充一点,即对于每个元素也是字典的数据集也可以做到这一点。例如,如果输入数据集的一个元素看起来像

{ 'feat1': [2,4], 'feat2': [3]}

对于要基于feat1中的元素划分为每个元素的每个元素,您可以编写:

def split(element):
    dict_of_new_elements = {
        'feat1': [
            element['feat1'][:, 0],
            element['feat1'][:, 1]]
        'feat2': [
            element['feat2'],
            element['feat2']]
    }
    return tf.data.Dataset.from_tensor_slices(dict_of_new_elements)
dataset.flat_map(split)

哪个会产生

[
    {'feat1': 2, 'feat2': 3},
    {'feat1': 4, 'feat2': 3},
]