在BERT中进行长文本分类时,我需要使用哪种预训练模型?

时间:2020-04-16 07:32:32

标签: nlp bert-language-model

我们知道bert的令牌最大长度限制为512,因此,如果Acticle的长度远大于512,例如文本中的10000令牌,那么长度就很大。在这种情况下,如何使用BERT?

1 个答案:

答案 0 :(得分:0)

您有2个选择:

  1. 截断长度超过512个toke的序列。
  2. 您可以使用微调转换器库中chunk_long_sequences功能实现的类似sliding window的方法。

在您的情况下,大约有10000个令牌的序列,我会选择选项2。