我有一个包含两个列功能的数据框:startneighborhood和hour
hour
可以取1-24中的任何值,即[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24]
startneighborhood
可以是37种不同的邻居选项。
我想找到每个社区的小时数,并使用“小时”作为索引。
所以我的矩阵将是24行x 37列,1:24小时数组作为我的索引,37邻居作为列名。
如何使用Pandas执行此计算?我以最快的方式迷失了方向。
我构建了数据框,索引和邻域名称作为列名。我现在只需要添加值..
答案 0 :(得分:2)
我对这个问题有点困惑,但我认为你想要做的是一个交叉表
import pandas as pd
df = <...> #construct your dataframe
table = pd.crosstab(index=df.hour,columns=df.startneighborhood)
这将为您提供一个24x37表,其中每个元素是小时和startneighborhood组合出现次数的计数。