我已将大数据帧简化为这个简单的数据框:
IDX POS REF ALT
13 633 C A
15 643 C T
42 2015 G A
43 2016 G A
151 9538 T C
154 9542 TC TCC,T
169 10041 T A
170 10041 T TAA,TA
数据来自具有核苷酸位置的基因组区域和参考基因组核苷酸以及来自不同人的替代核苷酸用于相同位置。我有一些职位(9542和10041)有两种不同的核苷酸替代品。
我想迭代ALT列并计算唯一核苷酸的数量,以便在计数中创建一个单独的列。我还没有看到如何使用python pandas完成这项工作。
新数据框将如下所示:
IDX POS REF ALT COUNT
13 633 C A 1
15 643 C T 1
42 2015 G A 1
43 2016 G A 1
151 9538 T C 1
154 9542 TC TCC,T 2
169 10041 T A 1
170 10041 T TAA,TA 2
如何用Pandas(或只是python)做到这一点?
谢谢。
罗德里戈
答案 0 :(得分:2)
我count
逗号并添加1
df['COUNT'] = df.ALT.str.count(',') + 1