我偶然发现了一些编码问题。我必须基本上从.csv文件中读取数据,看起来很像这样:
2011-06-19 17:29:00.000,72,44,56,0.4772,0.3286,0.8497,31.3587,0.3235,0.9147,28.5751,0.3872,0.2803,0,0.2601,0.2073,0.1172,0,0.0,0,5.8922,1,0,0,0,1.2759
现在,我基本上需要一个由这样的行组成的整个文件,并将它们解析为numpy数组。直到现在,我已经能够使用类似于此的代码将它们变成一个大字符串类型的对象:
order_hist = np.loadtxt(filename_input,delimiter=',',dtype={'names': ('Year', 'Mon', 'Day', 'Stock', 'Action', 'Amount'), 'formats': ('i4', 'i4', 'i4', 'S10', 'S10', 'i4')})
此文件的格式包含截至目前的一组S20数据类型。我需要基本上将大ORDER_HIST数据类型中的所有数据提取到每列的一组数组中。我不知道如何保存日期时间列(我现在把它保存为String)。我需要将其余部分转换为float,但下面的代码给出了一个错误:
temparr=float[:len(order_hist)]
for x in range(len(order_hist['Stock'])):
temparr[x]=float(order_hist['Stock'][x]);
有人能告诉我如何将所有列转换为我需要的数组吗?或者可能指示我这样做一些链接?
答案 0 :(得分:5)
converters
参数,允许您在解析文件时为每列指定一个函数。该函数被提供CSV字符串值。它的返回值成为numpy数组中的对应值。
此外,dtype = None
参数告诉genfromtxt
对每列的类型进行智能猜测。特别是,数字列会自动转换为适当的dtype。
例如,假设您的数据文件包含
2011-06-19 17:29:00.000,72,44,56
然后
import numpy as np
import datetime as DT
def make_date(datestr):
return DT.datetime.strptime(datestr, '%Y-%m-%d %H:%M:%S.%f')
arr = np.genfromtxt(filename, delimiter = ',',
converters = {'Date':make_date},
names = ('Date', 'Stock', 'Action', 'Amount'),
dtype = None)
print(arr)
print(arr.dtype)
产量
(datetime.datetime(2011, 6, 19, 17, 29), 72, 44, 56)
[('Date', '|O4'), ('Stock', '<i4'), ('Action', '<i4'), ('Amount', '<i4')]
您的真实csv文件包含更多列,因此您需要向names
添加更多项目,否则,该示例应该仍然有效。
如果你真的不在乎额外的列,你可以指定一个像这样的绒毛名称:
arr = np.genfromtxt(filename, delimiter=',',
converters={'Date': make_date},
names=('Date', 'Stock', 'Action', 'Amount') +
tuple('col{i}'.format(i=i) for i in range(22)),
dtype = None)
产量
(datetime.datetime(2011, 6, 19, 17, 29), 72, 44, 56, 0.4772, 0.3286, 0.8497, 31.3587, 0.3235, 0.9147, 28.5751, 0.3872, 0.2803, 0, 0.2601, 0.2073, 0.1172, 0, 0.0, 0, 5.8922, 1, 0, 0, 0, 1.2759)
您可能还有兴趣查看构建于numpy
之上的pandas模块,并将CSV解析为更高级别的奢侈品:它有一个{{3} } parse_dates = True
参数将自动解析日期字符串的函数(使用pandas.read_csv)。
使用pandas,你的csv可以用
解析df = pd.read_csv(filename, parse_dates = [0,1], header = None,
names=('Date', 'Stock', 'Action', 'Amount') +
tuple('col{i}'.format(i=i) for i in range(22)))
注意,无需指定make_date
函数. Just to be clear --
pands.read_csv returns a
DataFrame,而不是numpy数组。 DataFrame
实际上可能对您的目的更有用,但您应该意识到它是一个不同的对象,具有开发和探索的全新方法世界。