微调通用句子编码器

时间:2019-07-07 14:43:30

标签: python tensorflow training-data

我是TensorFlow的新手。我正在使用通用句子编码器来实现文本相似性。我想用自己的语料库微调USE。

我目前有:

module_url = "https://tfhub.dev/google/universal-sentence-encoder/2" 
embed = hub.Module(module_url, trainable=True)

根据here,设置trainable=True将“将变量公开为可训练的”。但是,我不知道这些可训练变量是什么,以及如何使用它们通过自己的语料库对USE进行微调。

请,任何指导或指导将不胜感激。

1 个答案:

答案 0 :(得分:0)

微调预训练的模型是允许其权重在下游训练任务中更新。

因此,您有2个选择:

  1. trainable=False
    • 此选项将加快训练速度,但永远不会更新预训练的模型权重。在您自己进行训练之前和之后,句子嵌入的外观将相同。通过训练,只有您自己的模型层的权重会改变。
  2. trainable=True
    • 这给您的训练循环增加了计算负担,但将允许根据您的任务和训练数据更新嵌入器的权重。这可能会导致最终模型更准确