我正在尝试建立一个预测模型,该模型可以基于约13,000个正确映射的服务的训练集,将基于文本的供应商提供的服务描述映射到约800个标准化服务代码。
每个标准化服务代码也具有标准化描述,通常与供应商提供的描述相似(即,某些使用的词是相同的),但不完全相同。描述通常为3-10个字长
我的主要问题是我不确定哪种类型的估计器适合该问题。
我尝试使用简单的模糊匹配方法,包括:
由于在供应商提供的标准化描述中使用了同义但不同的单词选择,因此这些方法效果不是很好。
我也考虑过使用决策树,但考虑到800多个可能的结果,这似乎是不可行的。
我可以使用哪种估算器来解决此问题?