应用错误收集

我正在尝试建立一个预测模型，该模型可以基于约13,000个正确映射的服务的训练集，将基于文本的供应商提供的服务描述映射到约800个标准化服务代码。

每个标准化服务代码也具有标准化描述，通常与供应商提供的描述相似（即，某些使用的词是相同的），但不完全相同。描述通常为3-10个字长

我的主要问题是我不确定哪种类型的估计器适合该问题。

我尝试使用简单的模糊匹配方法，包括：

由于在供应商提供的标准化描述中使用了同义但不同的单词选择，因此这些方法效果不是很好。

我也考虑过使用决策树，但考虑到800多个可能的结果，这似乎是不可行的。

我可以使用哪种估算器来解决此问题？