我计划实施以下内容:让我们考虑一下以下表格的字典:
Bob Dylan, AC / DC, 安博伊公爵, George Thorogood&驱逐舰。
因此字典包含1个令牌,2个令牌和最多可能是n个令牌的单词。
现在,当我有内容(段落)时,如果单词是上述词典的一部分,我想链接内容。例如:如果我的内容是以下形式:
Bob Dylan出生于圣玛丽医院的Robert Allen Zimmerman 1941年5月24日,在明尼苏达州德卢斯,在明尼苏达州希宾市长大, 在苏必利尔湖以西的Mesabi铁矿区。
在段落中,我们看到使用了Bob Dylan,Bob Dylan是字典的一部分。是否有算法可以有效地为字典中的数百万条记录识别出这一点?
答案 0 :(得分:4)
您可能正在寻找Aho-Corasick string matching algorithm。
该算法从您的字典中构建一个自动机,并在文本流中查找与此自动机的匹配。