如何使用第二列中的数据获取数据框中一列的统计信息?

时间:2019-10-30 03:46:22

标签: python pandas dataframe statistics

我正在尝试编写一个程序来对股票交易数据进行更深入的分析,但是遇到了障碍。我要在给定的时间范围内进行所有交易,并创建一个新的CSV文件,以便将该文件用作预测性神经网络的输入。

我当前具有的数据框具有三个值:(1)股票价格; (2)以该价格出售的股票数量; (3)该特定交易的unix时间戳。我无法获得任何准确的数据统计分析。例如,如果我使用.median(),则该程序仅查看列出的值的数量,而不是基于成交量列,每个值可能已被交易数百次的事实。

例如,这是我要分析的一只股票的部分交易历史。

 0   227.60   40  1570699811183

 1   227.40   27  1570699821641

 2   227.59   50  1570699919891

 3   227.60   10  1570699919891

 4   227.36  100  1570699967691

 5   227.35  150  1570699967691 . . .

为了更好地理解此问题,我还按价格将其分组,并用groupby('p').sum().将其他列加起来,我意识到这意味着时间戳是无用的,但它使可视化变得更容易。

 227.22     2   1570700275307

 227.23   100   1570699972526

 227.25   100   4712101657427

 227.30   105   4712101371199

 227.33    50   1570700574172

 227.35  4008  40838209836171 . . .

是否可以使用交易量列中的数字对价格列进行统计分析?我已经考虑过创建一个新的数据框,其中列出了每个价格的交易次数,但是不确定如何执行此操作。

在此先感谢您的帮助!

0 个答案:

没有答案