Question

我正在通过组合csv文件来建立数据库。我的样本一式三份，由标准命名系统命名（即单元格type_initials_stimulation method_sample编号，例如PBMC_AA_anti-CD3_1）。我想做的是编写一个函数，该函数将具有相同单元格类型/人的试管组合起来，总计数> 5000，然后取每列的平均值（即总列数，活细胞数）。

这是我所拥有的简称：

| -------------------------------- |总数|活细胞|

| PBMC_AA_anti-CD3_1 | 10000 | 6050 |

| PBMC_AA_anti-CD3_2 | 10000 | 6200 |

| PBMC_AA_anti-CD3_3 | 10000 | 5800 |

| PBMC_AA_PHA_1 | 10000 | 8790 |

| PBMC_AA_PHA_2 | 10000 | 4000 |

| PBMC_AA_PHA_3 | 4000 | 2000 | <-（这个   因为总数<5000）而被淘汰

我想拥有的东西

| -------------------------------- |总数|活细胞|

| PBMC_AA_anti-CD3 | 10000 | 6016.7 |

| PBMC_AA_PHA | 10000 | 6395 |

但是我不太确定从哪里开始！如果有人可以指出正确的方向，那将是很好的。如何提示python对具有相似样本名称的文件取平均值？随着我添加更多的行和更多的样本，将会有不同的首字母等等。我知道对于Total Count列，我有时会需要if声明，例如

def combine_tubes():   
    if Total_count < 5000: # how do I refer to this column specifically?
        pass
    else:
        # write this to new file?

也许？任何帮助表示赞赏。

合并CSV文件中一式三份列的平均值

0 个答案: