标签: nlp text-classification spacy multilabel-classification
我正在开发一个多标签文档分类器,用于约300个具有大量重叠的标签。为此我一直在试验Spacy 2.0的textcat,训练单个textcat管道进行多标签预测。它给出了一些有希望的结果,但是得分倾向于非常重要地评分单个标签或者根本没有评分。
似乎我可以通过二元相关性方法获得每个标签非常准确,独立的分数,但培训和部署300多个模型可能会有一些实际缺点。
我尝试在单一分类器方法中调整丢失,效果有限。
我可以使用哪些参数调整或其他更改来使textcat更加乐观并且在评分中不那么独占?