我有一个数据帧df
oligo_name oligo_sequence
AAAAA attttggggctggtaa
BBBBB attttcccgaatgtca
等等。为了计算每个序列的GC含量,我做了以下
from Bio.SeqUtils import GC
df['GC content'] = GC(df['oligo_sequence'])
但是我收到以下错误:
KeyError: 'Level G must be same as name (None)'
您能否建议一种修正或更好的方法来计算熊猫数据框中的序列的GC内容。感谢
答案 0 :(得分:1)
以下对我有用:
In [23]:
df['GC content'] = df['oligo_sequence'].apply(GC)
df
Out[23]:
oligo_name oligo_sequence GC content
0 AAAAA attttggggctggtaa 43.75
1 BBBBB attttcccgaatgtca 37.50
你不能将一个系列作为参数传递给一个函数,除非它理解一个pandas系列或数组类型是什么,所以你可以调用apply
并将该函数作为param调用该功能适用于系列中的每个值,如上所示。