在数据集中查找其他不存在的唯一序列

时间:2015-01-20 10:05:59

标签: algorithm

我想知道是否存在针对以下问题的已知算法/解决方案。

我有一组来自X系列的10000个文件和来自Y系列的另外10000个文件。 按族,我的意思是文件彼此密切相关(在代码共享方面)。

我希望发现家族X中所有(或大多数)文件中存在的独特序列(DNA),但不会在Y家族中退出。

我如何提取这样的DNA?

1 个答案:

答案 0 :(得分:0)

如果我理解正确,我相信这是解决方案:

  1. 创建一个代表所述DNA的类。
  2. 用第一个文件中的DNA填充一组并计算它们的流行程度。
  3. 用第二个文件中的DNA填充另一组。
  4. 从第一组中减去第二组以获取第一组文件中存在的所有DNA,而不存在于第二组文件中。
  5. 步骤4中收到的DNA中最常见的DNA是您正在寻找的DNA。
  6. 注意:在您的DNA课程中(或在您的课程中,依赖于您正在使用的语言)记住要照顾平等和散列。