为TensorFlow培训存储大量文本数据?

时间:2018-03-16 22:40:13

标签: tensorflow text

我想知道在序列到序列问题中存储这些数据的推荐方法是什么,以便使用tf.data.Dataset轻松使用和高效?基本上,我可以有一个名为data.txt的文件和另一个名为labels.txt的文件,这些行中的每对行都是一个训练样例。

基本上我可以使用tf.data.TextLineDataset,但我会以某种方式将文本翻译成整数序列,即索引到我的词汇表中。我的问题是,使用数据集转换是否有效的方法进行此转换,或者我应该只使用令牌 - >使用我的词汇表作为额外的预处理步骤进行整数转换,并将整数序列数据直接加载到数据集中?

1 个答案:

答案 0 :(得分:0)

是否将字符串转换为int作为单独的处理步骤可能取决于您的使用方案。如果您主要是针对固定词汇进行培训,最好将其转换为一次。如果您在线使用该模型并且可以在运行时获取新的词汇项,则必须在线分配新的ID。

以下是一些可能有用的指针:

https://www.tensorflow.org/api_docs/python/tf/decode_csv - 用于读取csv格式的数据(可以读取整数/浮点数)

https://www.tensorflow.org/api_docs/python/tf/contrib/lookup - 用于执行查找的实用程序哈希表,有关示例,请参阅https://www.tensorflow.org/api_docs/python/tf/contrib/lookup/index_table_from_tensor