将字符串自变量映射到字符串分类因变量的估计器选择

时间:2019-03-28 21:35:43

标签: machine-learning nlp data-science

我正在尝试建立一个预测模型,该模型可以基于约13,000个正确映射的服务的训练集,将基于文本的供应商提供的服务描述映射到约800个标准化服务代码。

每个标准化服务代码也具有标准化描述,通常与供应商提供的描述相似(即,某些使用的词是相同的),但不完全相同。描述通常为3-10个字长

我的主要问题是我不确定哪种类型的估计器适合该问题。

我尝试使用简单的模糊匹配方法,包括:

  • 计算供应商提供的标准化服务描述之间的匹配单词/字符,并选择匹配度最高的单词/字符
  • 尝试以最小的Levenshtein距离找到标准化的服务描述

由于在供应商提供的标准化描述中使用了同义但不同的单词选择,因此这些方法效果不是很好。

我也考虑过使用决策树,但考虑到800多个可能的结果,这似乎是不可行的。

我可以使用哪种估算器来解决此问题?

0 个答案:

没有答案