我必须使用大型PDF文档构建某种“字符串目录”,以便更快地进行字符串/子字符串搜索。
该机制应该像这样工作: PDF扫描程序扫描PDF文档中的字符串,并在我的目录中调用回调方法来索引该字符串。
现在,应该使用什么技术来构建这样的目录? 我听说过: - 后缀树 - 广义后缀树 - 后缀数组
我主要倾向于广义后缀树。我是对还是错? 我猜“正常”后缀树只适用于索引SINGLE字符串。
但是后缀数组怎么样?那里有广义的后缀数组吗?
我在C / C ++中发现了很多用于从字符串构建后缀树的代码,但是没有用于构建通用后缀树的代码!