我正在使用python分析DNA /蛋白质序列数据并遇到问题。 这是DNA序列表。
我想分析它们,因为group1和group2是对的。 例如,AAATTT_TTTCCC或GGGCCC_GGAAA是成对的。
该序列数据有时显示相同的序列。 例如,AAATTT出现三次,AGTC出现两次。 我想计算这个重叠序列并总结如下。 我想我应该使用熊猫,但不知道该怎么做。 如果有人能帮助我,我会非常感激。
答案 0 :(得分:1)
计算列中每个唯一值的出现次数:
# import pandas
import pandas as pd
# load data into Pandas dataframe
df = pd.read_csv("data.csv")
# get counts for each unique Group1 value
df["Group1"].value_counts()