我有一个词典,其中包含我想在字符串中识别的术语。例如,理想情况下,我想在术语<highlight>term</highlight>
示例
dictionary = ['Steve', 'Woz']
input = "I met Steve and Woz]
output = "I met <highlight>Steve</highlight> and <highlight>Woz</highlight>"
由于我需要识别文本中的每个条目,因此可能更加复杂,因此某些突出显示可以包含在另一个条目中
例如
dictionary = ['Steve', 'Steve Jobs', 'Jobs']
input = "I met Steve Jobs]
output = "I met <highlight><highlight>Steve</highlight> <highlight>Jobs</highlight></highlight>"
我可以将字典存储在Aho-Corasick字典中,并有效地识别关键字。我的问题是我无法弄清楚如何正确地标记这些术语。
执行此标记的最佳方法是什么?