在给定字符长度或句子中单词数的情况下,使用BERT进行分类

时间:2019-06-13 14:25:19

标签: machine-learning nlp bert-language-model

我有一个标题,其描述以及对应于该描述是否有效的0或1的数据集。我希望能够根据BERT以及描述的字符/单词数对它们是否有效进行分类。我该怎么办?

1 个答案:

答案 0 :(得分:1)

这个问题范围不大,但是您可以从以下步骤开始:

您可能可以使用bert的Cola处理器,它是解决二进制分类问题的合适处理器。

您可以将标题作为ID,因为它不会影响培训,并且可以唯一地标识描述。

根据所需问题创建TSV文件,您可以使用可乐任务的胶水数据来查看如何为bert格式化数据。

通常,训练和开发集有4列,即idclasssegment IDtext data,而测试集只有2列idtext data

一旦获得所需格式的数据,就可以执行微调。您可以使用run_classifier.py脚本进行微调。作者已经记录了使用上述脚本微调here

的方法