标签: memory tree trie suffix
我正在尝试找出在大型字符串数据集中找到最长公共后缀的最佳算法是什么(例如1个Mio.字符串,每个50个字符)。准确的任务是在此DNA序列集中识别一个衔接子。
我当前的方法是“通用后缀树” ,但是在某些时候,我遇到了内存问题。那么,还有其他算法更适合于如此大的数据集吗?