BERT:问题解答-培训所允许的单词/标记总数

时间:2020-06-18 20:16:21

标签: pytorch recurrent-neural-network language-model bert-language-model

假设我要针对某个二进制标签(1,0)用2个句子(查询-答案)对训练BERT,以确保答案的正确性,BERT让我为查询使用每个512个单词/令牌,答案或在一起(查询和答案结合在一起)应为512? [510忽略[start]和[sep]令牌]

谢谢!

1 个答案:

答案 0 :(得分:0)

实际上,它们在一起应该是509,因为有两个[SEP],一个接一个问题,另一个接一个答案:

[CLS] q_word1 q_word2 ... [SEP] a_word1 a_word2 ... [SEP]

其中q_word指问题中的单词,a_word指答案中的单词