应用错误收集

过去，我成功地在Python 3中创建了文本分类模型。其中大多数是根据手工编码的测试集对文档（购买说明）进行分类。我现在有一个非常明显的分类问题，我正在讨论最佳方法。我们拥有非常完整且正确分类的项目描述目录。我们将以此为火车。我们还列出了描述不佳（缺少测量值，描述不完整等）的项目清单（称其为不良清单）。我想要做的是拿这个“坏清单”，并根据火车的设置对每个项目进行分类。但是，我们的错误列表将包含简单地为“其他”的内容。例如，我们想将其分类为工具，PVF，工业供应或“其他”。火车组将没有任何“其他”分类。我曾计划设置一个合适的置信度参数，分类时必须满足该条件，但是我想知道是否可以使用其他方法更好。

错误列表示例：商店锤 O型圈后室水龙头用球阀会议餐

目录示例： 1/4“阀门，球形黄铜，为“ PVF” 1/2“管道1/2” x 1“外径，即“ PVF” 锤爪16盎司，是“工具”

在此示例中，锤子应映射到“工具”，但“进餐”不会达到阈值，因此应将其分类为“其他”。我正在寻找20种不同的分类。

文字分类或文字相似度

0 个答案: