具有令牌功能的训练模型

时间:2020-09-11 10:59:58

标签: huggingface-transformers

我想为希伯来语训练一个类似BERT的模型,在此我非常了解:

  1. 引理
  2. 性别
  3. 号码
  4. 语音

我想训练一个模型,其中针对每个令牌将这些功能串联在一起 Embedding(Token)= E1(引理):E2(性别):E3(数字):E4(语音)

有没有办法用当前的拥抱者变形金刚库做这种事情?

1 个答案:

答案 0 :(得分:1)

默认情况下,Huggingface的变形金刚中的模型不支持分解输入。解决方法是,您可以自己嵌入输入,并绕过BERT中的嵌入层。您可以提供input_ids而不是在调用模型时提供input_embeds。它将使用提供的嵌入和位置嵌入到它们。请注意,提供的嵌入必须与模型的其余部分具有相同的尺寸。

每种输入类型(词性,性别,数字,语音)都需要有一个嵌入层,这也意味着具有特定于因子的词汇表,这些词汇表将为用于嵌入查找的输入分配索引。与对于具有多个可能值的语法类别相比,对引理进行更大的嵌入是有意义的。

然后,您只需将嵌入连接起来,可以选择将它们投影并以input_embeds的形式提供给模型。