Question

我有一个来自新tf.data.Dataset模块的tf.Datasets数据集。当然，tf.data.Dataset是示例的迭代器，但是我实际上需要将此迭代器转换为包含所有加载到内存中的数据的完整张量。我正在处理文本数据，并且为了提取用于语料化的语料库的词汇，实际上我需要一次整个文本语料库。

我当然可以编写一个循环来执行此操作，但是我想知道是否存在更矢量化或更快速的方法来实现相同的任务。谢谢。

我至少可以提供代码的开头。注意我正在使用Tensorflow 2.0a尝试为转换做准备：

import tensorflow_datasets as tfds

# Download the data
imdb_builder = tfds.builder('imdb_reviews')
imdb_builder.download_and_prepare()

# Setup training test split
imdb_train = imdb_builder.as_dataset(split=tfds.Split.TRAIN)
imdb_test = imdb_builder.as_dataset(split=tfds.Split.TEST)

# Look at the specs on the dataset if you wish
# print(imdb_builder.info)

看一个例子。观察到数据是未标记的。

a, = imdb_train.take(1)
print(a['text'])

tf.Tensor(b"As a lifelong fan of Dickens, I have ...", shape=(), dtype=string)

这是我卡住的地方。请注意，尝试在此数据集上创建迭代器时，我得到了一个错误：

iter = imdb_train.batch(10).repeat(1).make_one_shot_iterator()

---------------------------------------------------------------------------

AttributeError                            Traceback (most recent call last)

<ipython-input-35-1bf70c474a05> in <module>()
----> 1 imdb_train = imdb_train.batch(10).repeat(1).make_one_shot_iterator()

AttributeError: 'RepeatDataset' object has no attribute 'make_one_shot_iterator'

Answer 1

1。数据加载

使用tfds.load更简单，更紧凑：

import tensorflow_datasets as tfds

train = tfds.load("imdb_reviews", as_supervised=True, split=tfds.Split.TRAIN)

2。词汇保护程序

非常简单，您可能希望从零开始索引。

class Tokenizer:
    def __init__(self):
        self.vocab = {}
        self._counter: int = 1
        self.tokenizer = tfds.features.text.Tokenizer()

    def __call__(self, text):
        # Haven't found anything working with tf.tensor, oh sweet irony
        tokens = self.tokenizer.tokenize(text.numpy())
        for token in tokens:
            if not token in self.vocab:
                self.vocab[token] = self._counter
                self._counter += 1

TBH令人遗憾的是，没有用于普通张量的tokenizer类工具，我需要像这样转换它们，但是哦，它仍然处于alpha阶段。

3。标记您的数据

由于TF2.0处于eager模式，因此您可以使用循环舒适地迭代one_shot_iterator和其他奇怪的想法：

tokenizer = Tokenizer()

for text, _ in train:
    tokenizer(text)

重要：您不必将所有内容都加载到内存中，因为它是迭代器。尽管对于大型主体，vocab中的记忆可能会遇到问题。

4。结果

打印项目及其索引：

print(list(tokenizer.vocab.keys())[:10])
print(list(tokenizer.vocab.values())[:10])

给我们：

['This', 'was', 'soul', 'provoking', 'I', 'am', 'an', 'Iranian', 'and', 'living']
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

Tensorflow：将`tf.data.Dataset`迭代器转换为Tensor

1 个答案:

1。数据加载

2。词汇保护程序

3。标记您的数据

4。结果