我有一个标题,其描述以及对应于该描述是否有效的0或1的数据集。我希望能够根据BERT以及描述的字符/单词数对它们是否有效进行分类。我该怎么办?
答案 0 :(得分:1)
这个问题范围不大,但是您可以从以下步骤开始:
您可能可以使用bert的Cola
处理器,它是解决二进制分类问题的合适处理器。
您可以将标题作为ID,因为它不会影响培训,并且可以唯一地标识描述。
根据所需问题创建TSV文件,您可以使用可乐任务的胶水数据来查看如何为bert格式化数据。
通常,训练和开发集有4列,即id
,class
,segment ID
,text data
,而测试集只有2列id
和text data
。
一旦获得所需格式的数据,就可以执行微调。您可以使用run_classifier.py
脚本进行微调。作者已经记录了使用上述脚本微调here