过去,我成功地在Python 3中创建了文本分类模型。其中大多数是根据手工编码的测试集对文档(购买说明)进行分类。我现在有一个非常明显的分类问题,我正在讨论最佳方法。我们拥有非常完整且正确分类的项目描述目录。我们将以此为火车。我们还列出了描述不佳(缺少测量值,描述不完整等)的项目清单(称其为不良清单)。我想要做的是拿这个“坏清单”,并根据火车的设置对每个项目进行分类。但是,我们的错误列表将包含简单地为“其他”的内容。例如,我们想将其分类为工具,PVF,工业供应或“其他”。火车组将没有任何“其他”分类。我曾计划设置一个合适的置信度参数,分类时必须满足该条件,但是我想知道是否可以使用其他方法更好。
错误列表示例: 商店锤 O型圈 后室水龙头用球阀 会议餐
目录示例: 1/4“阀门,球形黄铜,为“ PVF” 1/2“管道1/2” x 1“外径,即“ PVF” 锤爪16盎司,是“工具”
在此示例中,锤子应映射到“工具”,但“进餐”不会达到阈值,因此应将其分类为“其他”。我正在寻找20种不同的分类。