我训练了张量流模型进行文本分类。我现在准备将.tflite模型部署到android设备中。它基本上运行得很顺利,但后来我想起我的模型采用了标记化并填充的序列数组。
我必须使用与训练模型时相同的张量流令牌化和序列填充。 org.tensorflow.lite中是否有任何与keras预处理文本和keras预处理序列pad_sequences相匹配的API。
以下是我在培训期间所做的-
tokenizer = text.Tokenizer(num_words)
tokenizer.fit_on_texts(list(training_input) + list(test_input))
training_input = tokenizer.texts_to_sequences(training_input)
training_input = sequence.pad_sequences(training_input, max_sequence_len)
我必须在我的android java代码中复制相同的文本预处理。此外,如果有任何方法可以保存被调用以适合我的训练和测试集的令牌生成器对象并将其导入到我的android代码库中,那将是很棒的。
我搜索了以下链接,该链接讨论了操作tensorflow点燃了与tensorflow的兼容性-
https://www.tensorflow.org/lite/guide/ops_compatibility
然后我找到了tf.pad https://www.tensorflow.org/api_docs/python/tf/pad
但是,这仍然无法帮助我进行令牌化,因为令牌化已被训练为适合非常相关的数据集,并且可能会有新单词在英语词典中不常见。