PCA分析与python熊猫有很多列

时间:2016-03-25 18:57:47

标签: python pandas pca

我有一个.vcf文件,其中

column1 = chrom
column2 = pos
column3 = ID
column4 = reference
column5 = Alt
column6 = qual
column7 = filter
column8 = info
column9 = format    
column 10 - 99 = 100 columns that have a number of either zero or one

我在文件中读到:

#!/usr/bin/env python
import pandas as pd
vcf=open('/Users/cmdb/Desktop/Lab6_GWAS/variants.vcf', 'r')

并且不应该使用

for line in vcf:
    fields=line.strip().split()
    A01=fields[9]
    A02=fields[10]
    A03=fields[11]

然而,这将花费太长时间,因为我想保存所有一些,所以我可以稍后通过Python运行PCA分析。 PCA(主成分分析)。我想使用pandas但不确定如何为这么多列做到这一点。

1 个答案:

答案 0 :(得分:1)

pandas没有实施PCA算法。

改为使用sklearn

from sklearn.decomposition import PCA
pca = PCA(n_components=5)
pca.fit(df)

并可以访问这样的组件:

pca.components_