关于tensorflow hub中elmo模型的参数'tokens_length'的困惑

时间:2019-06-25 12:26:28

标签: tensorflow nlp embedding elmo

我正在tensorflow集线器中查看ELMo模型,但我不清楚在流程示例中 tokens_length = [6,5] 的含义是什么: (https://tfhub.dev/google/elmo/2

{{1}}

它不喜欢输入令牌句子的最大长度,也不喜欢[每个句子的最大单词数,句子数],这让我感到困惑。 有人可以解释一下吗? 谢谢!

1 个答案:

答案 0 :(得分:1)

第一个示例的长度为6,第二个示例的长度为5 :。即

猫在垫子上”长6个字,而“ 狗在雾中”长5个字。输入中多余的空字符串确实增加了一些混乱:-/

如果您阅读该页面上的文档,则说明了为什么需要这样做(粗体是我的字体)

  

使用令牌签名,模块将带令牌的句子作为输入。输入张量是形状为[batch_size, max_length ]的字符串张量和形状为[batch_size]的int32张量,其对应于句子的长度。对于长度不同的句子,长度输入对于排除填充是必要的