获取数据帧中最大值的(row,col)索引

时间:2015-04-08 02:37:19

标签: python numpy indexing max dataframe

我的数据框看起来像这样。

import pandas as pd
data = [[5, 7, 10], [7, 20, 4,], [8, 1, 6,]]
cities = ['Boston', 'Phoenix', 'New York']
df = pd.DataFrame(data, columns=cities, index=cities)

输出:

         Boston  Phoenix   New York
Boston      5       7         10
Phoenix     7       20         4
New York    8       1          6

我希望能够找到具有最大价值的城市对。在这种情况下,我想回凤凰城凤凰城。

我试过了:

cityMax = df.values.max()
cityPairs = df.idxmax()

第一个给我最大值(20),第二个给我每个城市最大对不仅仅是总体最大值。有没有办法在数据框中返回指定值的索引和列标题?

3 个答案:

答案 0 :(得分:2)

使用unstack()并使用idxmax()将顶部MultiIndex提取为元组

import pandas as pd
data = [[5, 7, 10], [7, 20, 4,], [8, 1, 6,]]
cities = ['Boston', 'Phoenix', 'New York']
df = pd.DataFrame(data, columns=cities, index=cities)

print df.unstack().idxmax()

返回:

('Phoenix', 'Phoenix')

答案 1 :(得分:1)

你也可以试试这个

In [15]: df_mat = df.as_matrix()

In [16]: cols, idxs = np.where(df_mat == np.amax(df_mat))

In [17]: ([df.columns[col] for col in cols], [df.index[idx] for idx in idxs])
Out[17]: (['Phoenix'], ['Phoenix'])

@piemont方法似乎更优雅。但是,我想知道在你的情况下(数据的大小),哪种方法可以更快地工作。您可以通过在完整数据上计时这些功能来检查出来吗?

答案 2 :(得分:0)

row_city, column_city = (df.max(axis=1).idxmax(), df.max(axis=0).idxmax())