如何从没有coulmn标题的文本文件中将一个特定列提取到熊猫数据框

时间:2018-04-21 09:39:10

标签: python pandas

我创建了单个csv文件 - " dataaa.csv",输入了列标题"操作"指定我想要提取的列,并使用以下代码。

data = pd.read_csv('dataaa.csv')
df1=data.loc[:,"operation"]

。工作。但现在我想把它扩展到一个真实的情况,

我需要在5210文件上迭代相同的过程,这是linux中split命令的结果。输出文件以文件名xxa开头。但是它包含一个列标题"操作"。如何才能读取列 - 这是我文件中的第二列,这足以迭代大量文件。

1 个答案:

答案 0 :(得分:0)

您可以使用read_csv函数中的usecols关键字。查看完整的documentation

data = pd.read_csv('dataaa.csv', usecols=[1], header=None)
  

usecols:array-like或callable,默认无

     

返回列的子集。如果是数组,则所有元素都必须   要么是位置的(即文档列中的整数索引)   或者与用户提供的列名对应的字符串   在名称中或从文档标题行推断。例如,a   有效的类似数组的usecols参数将是[0,1,2]或['foo',   'bar','baz']。

     

如果是可调用的,则将根据列名称评估可调用函数,返回可调用函数求值的名称   真正。有效可调参数的一个例子是lambda x:   [' AAA',' BBB',' DDD']中的x.upper()。使用此参数会导致   更快的解析时间和更低的内存使用率。