在文本上添加标记标签的最佳算法

时间:2019-05-18 22:46:17

标签: algorithm parsing data-structures trie lexer

我有一个词典,其中包含我想在字符串中识别的术语。例如,理想情况下,我想在术语<highlight>term</highlight>

周围添加一个XML标签。

示例

dictionary = ['Steve', 'Woz']
input = "I met Steve and Woz]
output = "I met <highlight>Steve</highlight> and <highlight>Woz</highlight>"

由于我需要识别文本中的每个条目,因此可能更加复杂,因此某些突出显示可以包含在另一个条目中

例如

dictionary = ['Steve', 'Steve Jobs', 'Jobs']
input = "I met Steve Jobs]
output = "I met <highlight><highlight>Steve</highlight> <highlight>Jobs</highlight></highlight>"

我可以将字典存储在Aho-Corasick字典中,并有效地识别关键字。我的问题是我无法弄清楚如何正确地标记这些术语。

执行此标记的最佳方法是什么?

0 个答案:

没有答案