在pandas数据帧中查找序列的GC内容

时间:2015-04-27 18:06:23

标签: pandas biopython

我有一个数据帧df

oligo_name  oligo_sequence

AAAAA       attttggggctggtaa

BBBBB       attttcccgaatgtca

等等。为了计算每个序列的GC含量,我做了以下

from Bio.SeqUtils import GC

df['GC content'] = GC(df['oligo_sequence'])

但是我收到以下错误:

KeyError: 'Level G must be same as name (None)'

您能否建议一种修正或更好的方法来计算熊猫数据框中的序列的GC内容。感谢

1 个答案:

答案 0 :(得分:1)

以下对我有用:

In [23]:

df['GC content'] = df['oligo_sequence'].apply(GC)
df
Out[23]:
  oligo_name    oligo_sequence  GC content
0      AAAAA  attttggggctggtaa       43.75
1      BBBBB  attttcccgaatgtca       37.50

你不能将一个系列作为参数传递给一个函数,除非它理解一个pandas系列或数组类型是什么,所以你可以调用apply并将该函数作为param调用该功能适用​​于系列中的每个值,如上所示。