创建用于BERT建模的输入数据-多类文本分类

时间:2020-04-09 14:32:57

标签: python-3.x tensorflow keras multiclass-classification

我正在尝试建立一个keras模型来对45个不同类的文本进行分类。对于Google的BERT模型要求的输入数据准备工作,我有些困惑。

有些博客文章将数据作为tf数据集插入,其中包含input_id,段ID和掩码ID,例如this guide,但随后某些博客仅包含input_id和掩码,例如in this guide.

在第二本指南中,它还指出了段掩码和注意掩码输入是可选的。

任何人都可以解释多分类任务是否需要这两个吗?

如果有帮助,我的数据的每一行都可以由合理大小的段落中的任意数量的句子组成。我希望能够将每个段落/输入分类到单个标签。

我似乎找不到很多关于将BERT与Keras(Tensorflow 2)一起用于多类问题的指南/博客,实际上其中许多是针对多标签问题的。

1 个答案:

答案 0 :(得分:0)

我想现在回答已经太晚了,但我有同样的问题。我查看了 Huggingface 代码,发现如果 attention_mask 和 segment_type id 为 None 那么默认情况下它会关注所有标记,并且所有段的 id 都为 0。

想看的可以找代码here

让我知道这是否说明了这一点,或者您认为不同。