我创建了单个csv文件 - " dataaa.csv",输入了列标题"操作"指定我想要提取的列,并使用以下代码。
data = pd.read_csv('dataaa.csv')
df1=data.loc[:,"operation"]
。工作。但现在我想把它扩展到一个真实的情况,
我需要在5210文件上迭代相同的过程,这是linux中split命令的结果。输出文件以文件名xxa开头。但是它包含一个列标题"操作"。如何才能读取列 - 这是我文件中的第二列,这足以迭代大量文件。
答案 0 :(得分:0)
您可以使用read_csv函数中的usecols
关键字。查看完整的documentation。
data = pd.read_csv('dataaa.csv', usecols=[1], header=None)
usecols:array-like或callable,默认无
返回列的子集。如果是数组,则所有元素都必须 要么是位置的(即文档列中的整数索引) 或者与用户提供的列名对应的字符串 在名称中或从文档标题行推断。例如,a 有效的类似数组的usecols参数将是[0,1,2]或['foo', 'bar','baz']。
如果是可调用的,则将根据列名称评估可调用函数,返回可调用函数求值的名称 真正。有效可调参数的一个例子是lambda x: [' AAA',' BBB',' DDD']中的x.upper()。使用此参数会导致 更快的解析时间和更低的内存使用率。