我正在通过组合csv文件来建立数据库。我的样本一式三份,由标准命名系统命名(即单元格type_initials_stimulation method_sample编号,例如PBMC_AA_anti-CD3_1)。我想做的是编写一个函数,该函数将具有相同单元格类型/人的试管组合起来,总计数> 5000,然后取每列的平均值(即总列数,活细胞数)。>
这是我所拥有的简称:
| -------------------------------- |总数|活细胞|
| PBMC_AA_anti-CD3_1 | 10000 | 6050 |
| PBMC_AA_anti-CD3_2 | 10000 | 6200 |
| PBMC_AA_anti-CD3_3 | 10000 | 5800 |
| PBMC_AA_PHA_1 | 10000 | 8790 |
| PBMC_AA_PHA_2 | 10000 | 4000 |
| PBMC_AA_PHA_3 | 4000 | 2000 | <-(这个 因为总数<5000)而被淘汰
我想拥有的东西
| -------------------------------- |总数|活细胞|
| PBMC_AA_anti-CD3 | 10000 | 6016.7 |
| PBMC_AA_PHA | 10000 | 6395 |
但是我不太确定从哪里开始!如果有人可以指出正确的方向,那将是很好的。如何提示python对具有相似样本名称的文件取平均值?随着我添加更多的行和更多的样本,将会有不同的首字母等等。我知道对于Total Count列,我有时会需要if
声明,例如
def combine_tubes():
if Total_count < 5000: # how do I refer to this column specifically?
pass
else:
# write this to new file?
也许?任何帮助表示赞赏。