标签: sequence dynamic-programming bioinformatics text-alignment
我不是生物信息学方面的专家。我想使用全局比对方法比对两个核苷酸序列。每个序列都是{A,C,T,G}字母的组合。
问题在于我不知道如何选择最佳评分方案(变电站和间隙罚分)。
目前,我使用值+ 1,-1,-2进行匹配,不匹配和空位罚分。而且我知道;人类DNA中的转换数量大于颠换的数量。
我的问题是如何根据我的数据集估算(匹配,不匹配和差距)的惩罚。有任何统计模型可以帮助吗?