文本从字典链接

时间:2013-01-31 14:19:46

标签: string algorithm

我计划实施以下内容:让我们考虑一下以下表格的字典:

Bob Dylan, AC / DC, 安博伊公爵, George Thorogood&驱逐舰。

因此字典包含1个令牌,2个令牌和最多可能是n个令牌的单词。

现在,当我有内容(段落)时,如果单词是上述词典的一部分,我想链接内容。例如:如果我的内容是以下形式:

  

Bob Dylan出生于圣玛丽医院的Robert Allen Zimmerman   1941年5月24日,在明尼苏达州德卢斯,在明尼苏达州希宾市长大,   在苏必利尔湖以西的Mesabi铁矿区。

在段落中,我们看到使用了Bob Dylan,Bob Dylan是字典的一部分。是否有算法可以有效地为字典中的数百万条记录识别出这一点?

1 个答案:

答案 0 :(得分:4)

您可能正在寻找Aho-Corasick string matching algorithm

该算法从您的字典中构建一个自动机,并在文本流中查找与此自动机的匹配。