我们正在尝试清除呼叫中心代理输入的免费文本但没有分配给该文本的产品的呼叫中心记录。我们希望获取自由文本并将其与产品列表进行比较,并找到该列表中产品的最佳匹配。
我已经尝试了R中的STRINGDIST
包,而我可以得到一个带有结果的矩阵,距离值不是我所期望的。
示例:
"I was told by a salesperson that the foundation light contains a small amount of SPF. Is this true?"
PRODUCT NAMES:
FDN LGHT
FOUNDATION LIGHT
LIPSTICK
LIGHT LIPSTICK
我希望结果能够将“基金会之光”评分为剩余项目的最高级别然后排名,“唇膏”没有得分,因为没有比赛。
请注意,如果您认为可以用其他语言进行,我很乐意接受任何建议。