我有一个file.fa包含两个元组:一系列DNA和一个DNA类。
我想在python和keras库中训练这个文件进行分类。 在python中读取和预处理数据的最佳方法是什么? chainging文件格式是否有助于更好地阅读和分类?
答案 0 :(得分:0)
您可能希望对每个序列的每个碱基进行单热编码,因此A,C,T,G变为[1,0,0,0],[0,1,0,0],[0,0 ,1,0],[0,0,0,1]。因此,输入实例是一个数字为基数4倍的向量,每四个数字中只有一个非零。
您用于答案的类也可能是单热编码的。由于序列中碱基的位置很重要,因此使用卷积神经网络可能会获得最佳结果。
答案 1 :(得分:-1)
fasta文件的处理方式与txt文件基本相同:
seqs = []
# Load in the fasta, line by line
with open('fasta_file.fa') as infile:
for line in infile:
seqs.append(line.strip())
# Merge the lines / first line is title typically, starting with >
dna_seq = {}
dna_seq[seqs.pop(0).strip('>')] = ''.join(seqs)