标签: python sql dna-sequence genome
我的数据需要保持其输入的确切顺序(基因组测序),我想搜索大约10个节点,每个节点大约18个成员,以定位模式。
显然速度是这个庞大的数据集的一个问题,我实际上没有任何我目前可以用作离散键的数据,因为搜索的基础是定位和隔离(但不是删除)重复。
我正在寻找一种能够在相对较短的时间内查看这些模式和相似性的算法,我可以计算出正则表达式进行比较,但我不知道如何获取比O(n)更快的搜索。
任何帮助都将不胜感激。
由于
答案 0 :(得分:0)