polyA.fa数据集的python分类

时间:2017-10-06 19:57:06

标签: python machine-learning classification

我有一个file.fa包含两个元组:一系列DNA和一个DNA类。

我想在python和keras库中训练这个文件进行分类。 在python中读取和预处理数据的最佳方法是什么? chainging文件格式是否有助于更好地阅读和分类?

2 个答案:

答案 0 :(得分:0)

您可能希望对每个序列的每个碱基进行单热编码,因此A,C,T,G变为[1,0,0,0],[0,1,0,0],[0,0 ,1,0],[0,0,0,1]。因此,输入实例是一个数字为基数4倍的向量,每四个数字中只有一个非零。

您用于答案的类也可能是单热编码的。由于序列中碱基的位置很重要,因此使用卷积神经网络可能会获得最佳结果。

答案 1 :(得分:-1)

fasta文件的处理方式与txt文件基本相同:

seqs = []

# Load in the fasta, line by line
with open('fasta_file.fa') as infile:
    for line in infile:
        seqs.append(line.strip())

# Merge the lines / first line is title typically, starting with >
dna_seq = {}
dna_seq[seqs.pop(0).strip('>')] = ''.join(seqs)