Question

我有一个.vcf文件，其中

column1 = chrom
column2 = pos
column3 = ID
column4 = reference
column5 = Alt
column6 = qual
column7 = filter
column8 = info
column9 = format    
column 10 - 99 = 100 columns that have a number of either zero or one

我在文件中读到：

#!/usr/bin/env python
import pandas as pd
vcf=open('/Users/cmdb/Desktop/Lab6_GWAS/variants.vcf', 'r')

并且不应该使用

for line in vcf:
    fields=line.strip().split()
    A01=fields[9]
    A02=fields[10]
    A03=fields[11]

然而，这将花费太长时间，因为我想保存所有零和一些，所以我可以稍后通过Python运行PCA分析。 PCA（主成分分析）。我想使用pandas但不确定如何为这么多列做到这一点。

Answer 1

pandas没有实施PCA算法。

改为使用sklearn。

from sklearn.decomposition import PCA
pca = PCA(n_components=5)
pca.fit(df)

并可以访问这样的组件：

pca.components_

PCA分析与python熊猫有很多列

1 个答案: