一种分割连接名称的算法

时间:2017-08-10 09:54:34

标签: python algorithm machine-learning nlp

我的问题是

我的全名带有连接名称,例如“ davidrobert jones ”。我想将它拆分为“ david robert jones ”。

我使用最长前缀匹配算法和名称字典测试了解决方案,但并不是那么简单,因为名称可以用很多方式编写。 我也添加了语音匹配算法,但也有很多名称可能具有相同的发音,因此它们非常模糊。

这样做的最佳解决方案是什么?我相信机器学习可以有答案,但我对机器学习知之甚少。

2 个答案:

答案 0 :(得分:1)

我认为您的问题类似于Named Entity Recognizer命名实体识别(NER)标记文本中的单词序列,这些单词是事物的名称,例如人员和公司名称。在第5节中,article具有Named Entity Recognition的python方法。

答案 1 :(得分:0)

一种可能的算法解决方案是创建一个更长的组合字典,表示所有可能的 first_name last_name 。然后,对于任何给定的标记列表作为名称(用空格分隔的单词),对于每个标记,找到与该标记具有最短编辑距离的所有字典输入