我正在尝试在column1上排序以下数组,然后是column2,然后是column3
[['2008' '1' '23' 'AAPL' 'Buy' '100']
['2008' '1' '30' 'AAPL' 'Sell' '100']
['2008' '1' '23' 'GOOG' 'Buy' '100']
['2008' '1' '30' 'GOOG' 'Sell' '100']
['2008' '9' '8' 'GOOG' 'Buy' '100']
['2008' '9' '15' 'GOOG' 'Sell' '100']
['2008' '5' '1' 'XOM' 'Buy' '100']
['2008' '5' '8' 'XOM' 'Sell' '100']]
我使用了以下代码:
idx=np.lexsort((order_array[:,2],order_array[:,1],order_array[:,0]))
order_array=order_array[idx]
结果数组是
[['2008' '1' '23' 'AAPL' 'Buy' '100']
['2008' '1' '23' 'GOOG' 'Buy' '100']
['2008' '1' '30' 'AAPL' 'Sell' '100']
['2008' '1' '30' 'GOOG' 'Sell' '100']
['2008' '5' '1' 'XOM' 'Buy' '100']
['2008' '5' '8' 'XOM' 'Sell' '100']
['2008' '9' '15' 'GOOG' 'Sell' '100']
['2008' '9' '8' 'GOOG' 'Buy' '100']]
问题是最后两行是错误的。正确的数组应该将最后一行作为倒数第二行。我已经尝试了一切,但我无法理解为什么会这样。将会感激一些帮助。
我使用以下代码获取order_array。
for i in ….
x= ldt_timestamps[i] # this is a list of timestamps
s_sym=……
list=[int(x.year),int(x.month),int(x.day),s_sym,'Buy',100]
rows_list.append(list)
order_array=np.array(rows_list)
答案 0 :(得分:9)
tldr:NumPy在对数值数组进行数值计算时会发光。虽然有可能(见下文)NumPy不适合这个。你可能最好不要使用Pandas。
问题的原因:
将值排序为字符串。您需要将它们排序为ints
。
In [7]: sorted(['15', '8'])
Out[7]: ['15', '8']
In [8]: sorted([15, 8])
Out[8]: [8, 15]
这是因为order_array
包含字符串。您需要在适当的时候将这些字符串转换为ints
。
将dtypes从string-dtype转换为数字dtype需要为新数组分配空间。因此,您可能最好从一开始就修改order_array
的创建方式。
有趣的是,即使您将值转换为整数,也可以在调用时将其转换为
order_array = np.array(rows_list)
默认情况下,NumPy会创建一个同源数组。在同构数组中,每个值都具有相同的dtype。所以NumPy试图找到你所有人的共同点 值并选择一个字符串dtype,阻止你将字符串转换为整数的努力!
您可以通过检查order_array.dtype
:
In [42]: order_array = np.array(rows_list)
In [43]: order_array.dtype
Out[43]: dtype('|S4')
现在,我们如何解决这个问题?
使用对象dtype:
最简单的方法是使用'object'dtype
In [53]: order_array = np.array(rows_list, dtype='object')
In [54]: order_array
Out[54]:
array([[2008, 1, 23, AAPL, Buy, 100],
[2008, 1, 30, AAPL, Sell, 100],
[2008, 1, 23, GOOG, Buy, 100],
[2008, 1, 30, GOOG, Sell, 100],
[2008, 9, 8, GOOG, Buy, 100],
[2008, 9, 15, GOOG, Sell, 100],
[2008, 5, 1, XOM, Buy, 100],
[2008, 5, 8, XOM, Sell, 100]], dtype=object)
这里的问题是np.lexsort
或np.sort
不适用于数组
dtype object
。要解决该问题,您可以对rows_list
进行排序
在创建order_list
之前:
In [59]: import operator
In [60]: rows_list.sort(key=operator.itemgetter(0,1,2))
Out[60]:
[(2008, 1, 23, 'AAPL', 'Buy', 100),
(2008, 1, 23, 'GOOG', 'Buy', 100),
(2008, 1, 30, 'AAPL', 'Sell', 100),
(2008, 1, 30, 'GOOG', 'Sell', 100),
(2008, 5, 1, 'XOM', 'Buy', 100),
(2008, 5, 8, 'XOM', 'Sell', 100),
(2008, 9, 8, 'GOOG', 'Buy', 100),
(2008, 9, 15, 'GOOG', 'Sell', 100)]
order_array = np.array(rows_list, dtype='object')
更好的选择是将前三列合并到datetime.date对象中:
import operator
import datetime as DT
for i in ...:
seq = [DT.date(int(x.year), int(x.month), int(x.day)) ,s_sym, 'Buy', 100]
rows_list.append(seq)
rows_list.sort(key=operator.itemgetter(0,1,2))
order_array = np.array(rows_list, dtype='object')
In [72]: order_array
Out[72]:
array([[2008-01-23, AAPL, Buy, 100],
[2008-01-30, AAPL, Sell, 100],
[2008-01-23, GOOG, Buy, 100],
[2008-01-30, GOOG, Sell, 100],
[2008-09-08, GOOG, Buy, 100],
[2008-09-15, GOOG, Sell, 100],
[2008-05-01, XOM, Buy, 100],
[2008-05-08, XOM, Sell, 100]], dtype=object)
即使这很简单,我也不喜欢NtypePy的dtype对象数组。 无法获得NumPy数组的速度和内存空间节省增益 本地dtypes。此时,您可能会发现使用Python列表列表 更快,语法更容易处理。
使用结构化数组:
更多的NumPy-ish解决方案仍然提供速度和内存优势
使用structured array(而不是齐次数组)。做一个
使用np.array
的结构化数组,您需要明确提供dtype:
dt = [('year', '<i4'), ('month', '<i4'), ('day', '<i4'), ('symbol', '|S8'),
('action', '|S4'), ('value', '<i4')]
order_array = np.array(rows_list, dtype=dt)
In [47]: order_array.dtype
Out[47]: dtype([('year', '<i4'), ('month', '<i4'), ('day', '<i4'), ('symbol', '|S8'), ('action', '|S4'), ('value', '<i4')])
要对结构化数组进行排序,您可以使用sort
方法:
order_array.sort(order=['year', 'month', 'day'])
要使用结构化数组,您需要了解同构数组和结构化数组之间的一些差异:
您原来的同源阵列是二维的。相比之下,所有 结构化数组是1维的:
In [51]: order_array.shape
Out[51]: (8,)
如果使用int索引结构化数组或遍历数组,那么 回到行:
In [52]: order_array[3]
Out[52]: (2008, 1, 30, 'GOOG', 'Sell', 100)
使用同构数组,您可以使用order_array[:, i]
访问列
现在,使用结构化数组,您可以按名称访问它们:例如order_array['year']
。
或者,使用Pandas:
如果您可以安装Pandas,我认为您可能最开心使用Pandas DataFrame:
In [73]: df = pd.DataFrame(rows_list, columns=['date', 'symbol', 'action', 'value'])
In [75]: df.sort(['date'])
Out[75]:
date symbol action value
0 2008-01-23 AAPL Buy 100
2 2008-01-23 GOOG Buy 100
1 2008-01-30 AAPL Sell 100
3 2008-01-30 GOOG Sell 100
6 2008-05-01 XOM Buy 100
7 2008-05-08 XOM Sell 100
4 2008-09-08 GOOG Buy 100
5 2008-09-15 GOOG Sell 100
Pandas具有按日期对齐时间序列,填补缺失的有用功能 值,分组和聚合/转换行或列。
通常,对于年,月,日而言,使用单个日期列而不是三个整数值列更有用。
如果您需要将年,月,日作为单独的列进行输出,比如说csv,那么您可以将日期列替换为年,月,日列,如下所示:
In [33]: df = df.join(df['date'].apply(lambda x: pd.Series([x.year, x.month, x.day], index=['year', 'month', 'day'])))
In [34]: del df['date']
In [35]: df
Out[35]:
symbol action value year month day
0 AAPL Buy 100 2008 1 23
1 GOOG Buy 100 2008 1 23
2 AAPL Sell 100 2008 1 30
3 GOOG Sell 100 2008 1 30
4 XOM Buy 100 2008 5 1
5 XOM Sell 100 2008 5 8
6 GOOG Buy 100 2008 9 8
7 GOOG Sell 100 2008 9 15
或者,如果您没有使用“日期”列开头,您当然可以单独留下rows_list
并从头开始构建包含年,月,日列的DataFrame。排序仍然很容易:
df.sort(['year', 'month', 'day'])