python:循环遍历txt文件并删除前几行字符串

时间:2017-10-04 17:53:45

标签: python numpy text valueerror

我有文本文件,其中每个文件有90列时间序列数据,长度各不相同。在这90列之前,我想要删除6行垃圾字符串数据。从第7行开始,数据都是float类型。

我尝试过以下操作,但它对我的文件没有任何更改:

folder = '/Users/LR/Desktop/S2'
files = os.listdir(folder)
for filename in files:
       lines = open(filename).readlines()
       open(filename, 'w').writelines(lines[6:])

我也尝试加载文件并跳过前6行,但是除非我设置dtype ='str',否则numpy.loadtxt不起作用。它成功地删除了前6行..但它作为字符串ndarray对象导入,我无法弄清楚如何将其转换为float数组。

data = np.loadtxt('STS2.txt', delimiter = '\t', skiprows=6, dtype='str')
data = data.astype(float) # this gives the error: ValueError: could not convert string to float: 

当我设置dtype = float时,我得到相同的ValueError:

data_float = np.loadtxt('STS2.txt', delimiter='\t', dtype=float, skiprows=7) # this gives the error: ValueError: could not convert string to float: 

任何人都知道解决这个问题的方法吗?

2 个答案:

答案 0 :(得分:1)

您可以使用pandas来帮助您。使用以下代码:

import pandas as pd
import numpy as np

df = pd.read_csv('STS1.txt', delimiter='\t', skiprows=[0,1,2], index_col=0)
df = df.T.set_index(np.nan, append=True).T

我能够加载下表:

enter image description here

请注意,您的列现在是分层的。您可以查看您的类型:

df.dtypes

输出:

1      float64
2      float64
3      float64
4      float64
...

您还可以轻松转换数据,例如到int

df = df.fillna(0).astype(int)

答案 1 :(得分:1)

每行的最后一个字段是空字符串,因此numpy无法将其解析为float。无论如何,您只对前90列感兴趣,因此请添加usecols=range(90)

np.loadtxt('STS2.txt', skiprows=6, usecols=range(90))

(当然,如果您已经删除了前六行,现在可以删除skiprows=6。)

修改

由于第一列似乎只是一个索引,您可以使用usecols=range(1, 90)来忽略它。