如何从文本文件访问数据以在TPU上训练模型?

时间:2019-08-22 07:40:13

标签: python tensorflow deep-learning text-classification tensorflow-datasets

我正在尝试在TF1.x中为TPU实现LSTM文本分类模型,而不启用急切的执行。但是,我只是找不到正确的方法来准备将数据馈送到模型中的数据。我正在遵循这两个教程,tutorial 1用于获取数据集,tutorial 2用于实现其使用TPU在Google Colab上运行。 由于它是文本分类,因此我必须使用tf.Tokenizer()对输入的文本标记进行编码,以下是我的操作方式-

tokenizer = tfds.features.text.Tokenizer()
vocabulary_set = set()

my_iterator = all_labeled_data.make_initializable_iterator()
text_tensor, _ = my_iterator.get_next()
with tf.Session() as sess1: 
  sess1.run(my_iterator.initializer)
  try:
    while True:
      text_string = sess1.run(text_tensor)
      #print text_string
      some_tokens = tokenizer.tokenize(text_string)
      vocabulary_set.update(some_tokens)
  except tf.errors.OutOfRangeError:
    pass

all_labeled_data包含(例如,标签)对。我确信我在访问数据的方式上犯了一个错误。如果您有任何意见/建议,请随时这样做。如果要查看整个代码,则为here。另外,随时启用 Python 2 TPU 在Google Colab上运行它。 谢谢!

0 个答案:

没有答案