如何将csv数据集列中的值导入python进行t-test?

时间:2018-04-10 20:49:39

标签: python-3.x pandas csv statistics t-test

这里的新编码器,尝试在Python 3.6中运行一些t测试。现在,要在我的2个数据集之间运行我的t检验,我一直在做以下事情:

import plotly.plotly as py
import plotly.graph_objs as go
from plotly.tools import FigureFactory as FF
import numpy as np
import pandas as pd
import scipy
from scipy import stats

long_term_survivor_GENE1 = [-0.38,-0.99,-1.04,0.1, etc..]
short_term_survivor_GENE1 = [0.32, 0.33,0.96, etc...]
stats.ttest_ind(long_term_survivor_GENE1,short_term_survivor_GENE1)

这要求我手动输入每个特定基因的两个数据集的每列的值(在本例中为GENE1)。有没有办法能够从数据集中调用值,以便Python可以只读取值而不用我自己键入它们?例如,我可以说某种方式:

long_term_survivor_GENE1 = ##call values from GENE1 column from dataset 1##
short_term_survivor_GENE1 = ## call values from GENE1 column from dataset 2## 

感谢您的帮助,对不起,我对这些东西并不十分熟悉。感谢任何反馈/提示。如果您有任何其他问题,请告诉我们!

1 个答案:

答案 0 :(得分:0)

如果您已将数据推送到pandas数据帧的列中,那么它可能就像这样容易。

>>> import pandas as pd
>>> long_term_survivor_GENE1 = [-0.38,-0.99,-1.04,0.1]
>>> short_term_survivor_GENE1 = [0.32, 0.33,0.96, 0.56]
>>> df = pd.DataFrame({'long_term_survivor_GENE1': long_term_survivor_GENE1, 'short_term_survivor_GENE1': short_term_survivor_GENE1})
>>> from scipy import stats
>>> stats.ttest_ind(df['long_term_survivor_GENE1'], df['short_term_survivor_GENE1'])
Ttest_indResult(statistic=-3.615804684179662, pvalue=0.011153077626049458)

尽管回顾这背后的统计数据可能是一个好主意。如果你还没有在数据框中找到它们,那么请在这里查看关于使用read_csv寻求帮助的一些答案。