我有一个OCR,可识别给定图片中的一些简短查询字符串(4-12个字母)。我想将这些公认的词语与已知词汇的大数据库相匹配。我已经使用最常见错误中使用过的字母表构建了一个混淆矩阵,并且我试图对我数据库中的所有单词进行完整的对齐,并且发现(并不是太令人兴奋)这太费时了。
所以我正在寻找一种启发式方法来将这些单词与数据库匹配(允许不匹配)。有没有人知道可以帮助我的可用库或算法?
我已经考虑过使用BLAST或FASTA,但我理解它的方式仅限于标准氨基酸字母表,我想使用所有字母和数字。
感谢您的帮助!
答案 0 :(得分:0)
不是专家,但我已经对生物信息学进行了一些阅读(这不是主题,而是相关的)。您可以使用后缀树或相关数据结构来更快速地搜索数据库。我相信当前构建树所需的时间是线性wrt数据库长度,查询树所需的时间是查询字符串长度的线性,所以如果你有很多相对较短的查询字符串,这听起来像是完美的数据结构给你。更多阅读可以在维基百科页面上找到后缀树。