Tensorflow密集张量到稀疏二值哈希技巧张量

时间:2018-11-23 16:34:36

标签: python tensorflow sparse-matrix

我想以如下方式变换此数据集:每个张量具有给定大小Exception,并且当且仅当存在以下情况时,此新张量的索引n处的特征才设置为1原始功能中的i(模n)。

我希望下面的例子可以使事情更清楚

假设我有一个像这样的数据集:

i

我想得到的稀疏等效项(如果t = tf.constant([ [0, 3, 4], [12, 2 ,4]]) ds = tf.data.Dataset.from_tensors(t) = 9)

n

我已经知道如何获得一个非稀疏表示(Tensorflow: tensor binarization),因为最终我得到n> 1百万,所以我不想通过密集张量来获得稀疏表示。

谢谢

1 个答案:

答案 0 :(得分:1)

这是一种可能的实现方式:

import tensorflow as tf

def binarization_sparse(t, n):
    # Input size
    t_shape = tf.shape(t)
    t_rows = t_shape[0]
    t_cols = t_shape[1]
    # Make sparse row indices for each value
    row_idx = tf.tile(tf.range(t_rows)[: ,tf.newaxis], [1, t_cols])
    # Sparse column indices
    col_idx = t % n
    # "Flat" indices - needed to discard repetitions
    total_idx = row_idx * n + col_idx
    # Remove repeated elements
    out_idx, _ = tf.unique(tf.reshape(total_idx, [-1]))
    # Back to row and column indices
    sparse_idx = tf.stack([out_idx // n, out_idx % n], axis=-1)
    # Sparse values
    sparse_values = tf.ones([tf.shape(sparse_idx)[0]], dtype=t.dtype)
    # Make sparse tensor
    out = tf.sparse.SparseTensor(tf.cast(sparse_idx, tf.int64),
                                 sparse_values,
                                 [t_rows, n])
    # Reorder indices
    out = tf.sparse.reorder(out)
    return out

# Test
with tf.Graph().as_default(), tf.Session() as sess:
    t = tf.constant([
        [ 0,  3,  4],
        [12,  2,  4]
    ])
    # Sparse result
    t_m1h_sp = binarization_sparse(t, 9)
    # Convert to dense to check output
    t_m1h = tf.sparse.to_dense(t_m1h_sp)
    print(sess.run(t_m1h))

输出:

[[1 0 0 1 1 0 0 0 0]
 [0 0 1 1 1 0 0 0 0]]

我添加了删除重复元素的逻辑,因为从原则上讲可能会发生,但是如果您保证没有重复(包括模),则可以跳过该步骤。另外,我在最后重新排列稀疏张量。在这里这不是严格必须的,但是(我认为)稀疏运算有时会期望索引是有序的(并且sparse_idx可能没有排序)。

此外,此解决方案特定于2D输入。对于一维输入,将更简单,并且如果需要,也可以将其写为高维输入。我认为可以使用一个完全通用的解决方案,但会更加复杂(特别是如果您要考虑具有未知维数的张量)。