使用 BERT 等预训练模型进行文档分类

时间:2021-02-09 22:09:47

标签: nlp bert-language-model huggingface-transformers document-classification

我正在寻找对文档进行分类的方法。例如。我有一堆带有文本的文档,我想标记文档是否属于体育、食品、政治等。 我可以为此使用 BERT(对于单词 > 500 的文档)还是有任何其他模型可以有效地完成此任务?

1 个答案:

答案 0 :(得分:1)

BERT 的最大序列长度为 512 个标记(请注意,这通常远少于 500 个单词),因此您不能一次将整个文档输入到 BERT。如果您仍想将模型用于此任务,我建议您

  1. 将每个文档分成可由 BERT 处理的块(例如 512 个令牌或更少)
  2. 单独对所有文档块进行分类
  3. 根据块的最常预测标签对整个文档进行分类,即采取多数表决

在这种情况下,您唯一需要做的修改是在 BERT 之上添加一个全连接层。

不过,这种方法可能相当昂贵。还有一种替代方法是将文本文档表示为词向量袋,然后在数据上训练分类器。如果您不熟悉 BOW,那么 Wikipedia entry 是一个很好的起点。它可以作为各种分类器的特征向量,我建议您尝试使用 SVM 或 kNN。