Question

我作为硕士论文的一部分遇到了以下问题，过去几周一直无法找到合适的解决方案，我会问群众。

问题1

假设存在已知长度的（未知）符号序列。比如说

ABCBACBBBAACBAABCCBABBCA...  # 2000 Symbols long

现在，给定来自序列中任意位置的 N 样本，任务是重建原始序列。例如：

ABCBACBBBAA
ACBBBAACBAABCCBAB
CBACBBBAACBAAB
BAABCCBABBCA
...

问题2（更难）

现在，从好的方面来说，我可以制作多少样品没有限制，而在不那么光明的一面，故事还有更多。

因此，样本实际上看起来更像是这样：

A   A     A
A    A   A   C
C   B     B
B     B    C*     # The C should have been an A.
...

我尝试了以下内容：

让 S 成为带孔的所有部分噪声序列的集合。

非常欢迎任何新鲜的想法。相关文章的链接/参考就像吗哪！

有关我的数据集的具体信息

Answer 1

问题1被称为最短共同超序序问题。对于两个以上的输入字符串，它是NP难的，即使只有两个符号。问题2是Multiple Sequence Alignment的一个实例。它有很多算法和实现，主要是启发式的，因为它通常也是NP难的。