字符串索引和后缀树

时间:2012-11-07 13:22:41

标签: suffix-tree string-search suffix-array

我必须使用大型PDF文档构建某种“字符串目录”,以便更快地进行字符串/子字符串搜索。

该机制应该像这样工作: PDF扫描程序扫描PDF文档中的字符串,并在我的目录中调用回调方法来索引该字符串。

现在,应该使用什么技术来构建这样的目录? 我听说过: - 后缀树 - 广义后缀树 - 后缀数组

我主要倾向于广义后缀树。我是对还是错? 我猜“正常”后缀树只适用于索引SINGLE字符串。

但是后缀数组怎么样?那里有广义的后缀数组吗?

我在C / C ++中发现了很多用于从字符串构建后缀树的代码,但是没有用于构建通用后缀树的代码!

0 个答案:

没有答案