标签: python algorithm bioinformatics
我对MiSeq v2测序结果感到有些困惑。我一直在使用六种不同的条形码来区分我的样品,但由于某些原因,“条形码”文件包含超过70k种不同的序列。所以我猜这种情况可能是由于读取条形码时发生的错误而发生的。我该如何处理这种歧义?目前我正在尝试使用自定义Python脚本,它试图通过Levenhstein彼此距离(以及我选择的模板)对条形码进行聚类。