Question

我有一个CSV文件，我想从中提取列，但只能从某些行中提取。它看起来像这样：

gene_id, ENSDARG00000104632, gene_version, 2, gene_name, RERG

gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186

gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186

gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186

gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186

基本上我想要第2和第6列，但仅限于具有＆＃34; gene_name＆＃34;的行。在第5栏。所以我想提取：

ENSDARG00000104632, RERG

（从那里开始有数千行）

这就是我写的：

import csv


with open('filename.csv', 'rb') as infh:
        reader = csv.reader(infh)
        for row in reader:
                if row[4] == 'gene_name':
                        print row[1, 5]

然而，它给了我这个错误：

文件＆＃34; ./ gene_name_grabber.sh＆＃34;，第10行，in if row[4] == 'gene_name': IndexError：列表索引超出范围

我理解这个错误意味着我已经要求它查看大于行中索引数的索引号...但每行中明显有4个以上的索引。请帮忙吗？

谢谢！

Answer 1

显然，有些行不包含足够的列。试试这个：

import csv

with open('input.csv', 'r') as f:

    reader = csv.reader(f)

    for row in reader:
        try:
            if 'gene_name' in row[4]:
                print('%s, %s' % (row[1].strip(), row[5].strip()))
        except IndexError:
            continue

...输出：

ENSDARG00000104632，RERG

Answer 2

我想要第2列和第6列，但只能使用＆＃34; gene_name＆＃34;在第5栏。

我喜欢python。但这最自然地表达为

                    print row[1, 5]

让我们回到python。这不是你想要写的：

print(row[1], row[5])

将其改为row[4]。

您的部分行只有少量列。所以你想要包括例如row[5]语句中的if或if len(row) > 5: ...，用于验证其足够长的行：

{{1}}

Answer 3

正如锑声所指出的那样，听起来好像你的数据偶尔缺少值，而csv无法轻易处理。我建议使用像pandas这样具有read_csv功能的库，并且可以处理缺失的值。以此数据为例：

gene_id, ENSDARG00000104632, gene_version, 2, gene_name, RERG
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id,
gene_id, ENSDARG00000104632, gene_version, , transcript_id,
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186

可以理解如下：

import pandas as pd

# Use the 2nd, 5th and 6th columns - i.e.column indices 1, 4 and 5 respectively
# And, we set the 'not available' data - i.e. `na_values` as 'N/A'.
data = pd.read_csv('test.dat', na_values='N/A', header=None, skipinitialspace=True, usecols=[1,4,5])

# now select only the rows without 'gene_version':
d = data.loc[data[4] != 'gene_name']

# and, now we only select columns with index 1 and 5:
selected_data = d[[1, 5]]

产量：

                    1                   5
0  ENSDARG00000104632                RERG
1  ENSDARG00000104632  ENSDART00000166186
2  ENSDARG00000104632  ENSDART00000166186
3  ENSDARG00000104632  ENSDART00000166186
4  ENSDARG00000104632  ENSDART00000166186
5  ENSDARG00000104632  ENSDART00000166186
6  ENSDARG00000104632  ENSDART00000166186
7  ENSDARG00000104632                 NaN
8  ENSDARG00000104632                 NaN
9  ENSDARG00000104632  ENSDART00000166186

根据需要。

但是，如果缺少数据 - 如本示例所示 - 您只需删除以下行：

selected_data.dropna()

哪个输出：

                    1                   5
1  ENSDARG00000104632  ENSDART00000166186
2  ENSDARG00000104632  ENSDART00000166186
3  ENSDARG00000104632  ENSDART00000166186
4  ENSDARG00000104632  ENSDART00000166186
5  ENSDARG00000104632  ENSDART00000166186
6  ENSDARG00000104632  ENSDART00000166186
9  ENSDARG00000104632  ENSDART00000166186

（但是，这可能不是你想要的。）

参考

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

Python csv模块错误：索引超出范围

3 个答案: