自然语言关系网络如何

时间:2015-04-30 13:16:50

标签: sas nlp neural-network

我正在研究分析一些非常凌乱的雇主名称数据(应用程序中的自由文本字段)的最佳方法。在拼写,缩写甚至语言方面,每个雇主可能有100种不同的变体。

解决此问题的最佳和最准确的方法是什么,哪种工具效果最好?我目前正在使用Base SAS,但我不认为它有能力做我需要的。

1 个答案:

答案 0 :(得分:0)

我不知道任何可以为您神奇地解决此问题的工具。如已经建议的那样我尝试将列表中的每个雇主名称与其他雇主名称进行比较,并检查编辑距离。这是一个非常容易使用的Levenshtein函数,只需:

import Levenshtein
ed = Levenshtein.distance('someString', 'someOtherString')

您可能希望以这种方式规范化:

normalized = ed / max(len('someString'), len('someOtherString'))

然后浏览列表并根据此清理。 做一些单词或ngram频率分析也可以快速引导你一些你可能想要统一的频繁缩写(' inc。'并且'合并',' ltd 。'和'限制'等。)