应用错误收集

不精确的字符串搜索 - 将查询字符串缩短到庞大的数据库（blast？）

时间：2017-10-05 11:04:46

标签： search heuristics string-search blast

我有一个OCR，可识别给定图片中的一些简短查询字符串（4-12个字母）。我想将这些公认的词语与已知词汇的大数据库相匹配。我已经使用最常见错误中使用过的字母表构建了一个混淆矩阵，并且我试图对我数据库中的所有单词进行完整的对齐，并且发现（并不是太令人兴奋）这太费时了。

所以我正在寻找一种启发式方法来将这些单词与数据库匹配（允许不匹配）。有没有人知道可以帮助我的可用库或算法？

我已经考虑过使用BLAST或FASTA，但我理解它的方式仅限于标准氨基酸字母表，我想使用所有字母和数字。

感谢您的帮助！

1 个答案:

答案 0 :(得分：0)

不是专家，但我已经对生物信息学进行了一些阅读（这不是主题，而是相关的）。您可以使用后缀树或相关数据结构来更快速地搜索数据库。我相信当前构建树所需的时间是线性wrt数据库长度，查询树所需的时间是查询字符串长度的线性，所以如果你有很多相对较短的查询字符串，这听起来像是完美的数据结构给你。更多阅读可以在维基百科页面上找到后缀树。