应用错误收集

我必须使用大型PDF文档构建某种“字符串目录”，以便更快地进行字符串/子字符串搜索。

该机制应该像这样工作： PDF扫描程序扫描PDF文档中的字符串，并在我的目录中调用回调方法来索引该字符串。

现在，应该使用什么技术来构建这样的目录？我听说过： - 后缀树 - 广义后缀树 - 后缀数组

我主要倾向于广义后缀树。我是对还是错？我猜“正常”后缀树只适用于索引SINGLE字符串。

但是后缀数组怎么样？那里有广义的后缀数组吗？

我在C / C ++中发现了很多用于从字符串构建后缀树的代码，但是没有用于构建通用后缀树的代码！