将.npy(numpy文件)送入tensorflow数据管道

时间:2018-02-20 16:08:43

标签: numpy tensorflow dataset data-pipeline

Tensorflow似乎缺乏一个读者,因为" .npy"文件。 如何将我的数据文件读入新的tensorflow.data.Dataset pipline? 我的数据不适合记忆。

每个对象都保存在一个单独的" .npy"文件。每个文件包含2个不同的ndarray作为特征,标量作为标签。

4 个答案:

答案 0 :(得分:6)

您可以使用tf.py_func执行此操作,请参阅示例here。 解析函数只是将文件名从字节解码为字符串并调用np.load。

更新:这样的事情:

def read_npy_file(item):
    data = np.load(item.decode())
    return data.astype(np.float32)

file_list = ['/foo/bar.npy', '/foo/baz.npy']

dataset = tf.data.Dataset.from_tensor_slices(file_list)

dataset = dataset.map(
        lambda item: tuple(tf.py_func(read_npy_file, [item], [tf.float32,])))

答案 1 :(得分:5)

您的数据是否适合内存?如果是这样,您可以按照文档的Consuming NumPy Arrays部分中的说明进行操作:

  

使用NumPy数组

     

如果所有输入数据都适合内存,从中创建数据集的最简单方法是将它们转换为tf.Tensor对象并使用Dataset.from_tensor_slices()。

# Load the training data into two NumPy arrays, for example using `np.load()`.
with np.load("/var/data/training_data.npy") as data:
  features = data["features"]
  labels = data["labels"]

# Assume that each row of `features` corresponds to the same row as `labels`.
assert features.shape[0] == labels.shape[0]

dataset = tf.data.Dataset.from_tensor_slices((features, labels))

如果文件不适合内存,似乎唯一推荐的方法是首先将npy数据转换为TFRecord格式,然后使用{{1数据集格式,可以在不完全加载到内存的情况下进行流式处理。

Here is a post with some instructions.

对于我来说,TFRecord无法直接用npy文件的目录名或文件名实例化,这似乎很疯狂,但它似乎是普通Tensorflow的限制。

如果您可以将单个大型npy文件拆分为较小的文件,每个文件大致代表一个用于培训的批处理,那么您可以在Keras中编写一个自定义数据生成器,只生成当前批次所需的数据。

通常,如果您的数据集无法放入内存中,将其存储为单个大型npy文件会使其难以使用,并且最好先将数据重新格式化为TFRecord或多个npy文件,然后再使用其他方法。

答案 2 :(得分:4)

实际上可以使用TensorFlow而不是TFRecords直接读取NPY文件。关键部分是tf.data.FixedLengthRecordDatasettf.decode_raw,以及对NPY format的文档的了解。为简单起见,我们假设给出了一个包含形状为(N, K)的数组的float32 NPY文件,并且您事先知道了特征K的数量,以及它是一个float32数组的事实。 NPY文件只是一个带有小标头的二进制文件,后跟原始数组数据(对象数组不同,但是我们现在考虑的是数字)。简而言之,您可以使用以下函数找到此标头的大小:

def npy_header_offset(npy_path):
    with open(str(npy_path), 'rb') as f:
        if f.read(6) != b'\x93NUMPY':
            raise ValueError('Invalid NPY file.')
        version_major, version_minor = f.read(2)
        if version_major == 1:
            header_len_size = 2
        elif version_major == 2:
            header_len_size = 4
        else:
            raise ValueError('Unknown NPY file version {}.{}.'.format(version_major, version_minor))
        header_len = sum(b << (8 * i) for i, b in enumerate(f.read(header_len_size)))
        header = f.read(header_len)
        if not header.endswith(b'\n'):
            raise ValueError('Invalid NPY file.')
        return f.tell()

使用此方法,您可以创建像这样的数据集:

import tensorflow as tf

npy_file = 'my_file.npy'
num_features = ...
dtype = tf.float32
header_offset = npy_header_offset(npy_file)
dataset = tf.data.FixedLengthRecordDataset([npy_file], num_features * dtype.size, header_bytes=header_offset)

此数据集的每个元素均包含一长串字节,代表一个示例。现在,您可以对其进行解码以获得实际的数组:

dataset = dataset.map(lambda s: tf.decode_raw(s, dtype))

但是,这些元素将具有不确定的形状,因为TensorFlow不会跟踪字符串的长度。因为您知道特征的数量,所以您可以只实施形状:

dataset = dataset.map(lambda s: tf.reshape(tf.decode_raw(s, dtype), (num_features,)))

类似地,您可以选择在批处理之后执行此步骤,或以您喜欢的任何方式将其组合。

限制是您必须事先知道功能数量。但是,可以从NumPy标头中提取它,这有点麻烦,而且无论如何很难从TensorFlow内部提取它,因此文件名需要事先知道。实际上,另一个限制是,该解决方案要求您每个数​​据集仅使用一个文件,或者具有相同标头大小的文件,尽管如果您知道所有数组的大小应与实际情况相同。 / p>

诚然,如果考虑使用这种方法,最好有一个没有头的纯二进制文件,然后硬编码功能的数量或从不同的来源读取它们……

答案 3 :(得分:1)

问题设置

我有一个包含图像的文件夹,这些图像被输入到 InceptionV3 模型中以提取特征。这似乎是整个过程的一个巨大瓶颈。作为一种解决方法,我从每张图像中提取特征,然后以 .npy 格式将它们存储在磁盘上。

现在我有两个文件夹,一个用于图像,另一个用于相应的 .npy 文件。在 .npy 管道中加载 tf.data.Dataset 文件存在明显问题。

解决方法

我在 show attend and tell 上看到了 TensorFlow 的官方教程,该教程对这个线程(和我)遇到的问题有很好的解决方法。

加载 numpy 文件

首先,我们需要创建一个映射函数,它接受 .npy 文件名并返回 numpy 数组。

# Load the numpy files
def map_func(feature_path):
  feature = np.load(feature_path)
  return feature

使用 tf.numpy_function

使用 tf.numpy_function,我们可以包装任何 Python 函数并将其用作 TensorFlow 操作。该函数必须接受 numpy 对象(这正是我们想要的)。

我们创建一个 tf.data.Dataset,其中包含所有 .npy 文件名的列表。

dataset = tf.data.Dataset.from_tensor_slices(feature_paths)

然后我们使用 map API 的 tf.data.Dataset 函数来完成我们剩下的任务。

# Use map to load the numpy files in parallel
dataset = dataset.map(lambda item: tf.numpy_function(
          map_func, [item], tf.float16),
          num_parallel_calls=tf.data.AUTOTUNE)