比较未排序数据的快速算法

时间:2012-09-18 03:43:37

标签: python sql dna-sequence genome

我的数据需要保持其输入的确切顺序(基因组测序),我想搜索大约10个节点,每个节点大约18个成员,以定位模式。

显然速度是这个庞大的数据集的一个问题,我实际上没有任何我目前可以用作离散键的数据,因为搜索的基础是定位和隔离(但不是删除)重复。

我正在寻找一种能够在相对较短的时间内查看这些模式和相似性的算法,我可以计算出正则表达式进行比较,但我不知道如何获取比O(n)更快的搜索。

任何帮助都将不胜感激。

由于

1 个答案:

答案 0 :(得分:0)

  • 可能你想要的是“de novo assembly”
  • 一种方法是计算N-mers,并在索引
  • 中使用它们 如果您需要部分匹配/不匹配,
  • nmers将变得更加重要
  • if billion:= 1E9,python可能太弱了
  • 还要注意18个基* 2位:= 36位信息来枚举它们。这几乎是接近32位,可以适合64位。散列/ bitfiddling 可能是一个选项