标签: string-matching dna-sequence
我有一个列表(大约100000个),每个DNA字符串的长度为21。我想在我的数据集中的所有字符串中找到长度超过4位的常见模式。任何简单的Python实现都会有所帮助。
ATTGGCGGCGCCTA,ATTGGCTGCGCTAG,GCGCTGCAGCGCATTA等具有GCGC的通用