如何在R中对人们的偶然决策进行概要描述?

时间:2018-11-04 05:03:21

标签: r dataframe machine-learning tree statistics

假设木匠创建了一个木制迷宫,从鸟瞰的角度看,它看起来像是带有节点和分支的树状结构。您从一个节点开始,该节点分支到另外4个节点,然后每个节点又分支到4个节点,最后一个分支又分支到4个出口。这意味着您有4x4x4 = 64种迷宫修整方法。

然后,我让数十万只老鼠穿过这个迷宫,并通过记录它们在每个节点处选择的分支路径来记录它们所走的路径。大多数老鼠会多次迷宫运行,当然它们每次都可以选择不同的路径。

样本数据

id    node1   node2     node3     date
"4"   "path1"  "path1"  "path4" "1999.01.01"
"9"   "path1"  "path3"  "path1" "1999.01.01"
"24"  "path1"  "path3"  "path2" "1999.01.01"
"1"   "path4"  "path3"  "path3" "1999.01.02"
"9"   "path2"  "path3"  "path1" "1999.01.02"
"22"  "path3"  "path3"  "path2" "1999.01.04"
...

我想为每只小鼠建立一个档案。因此,如果im在某个节点上是通过路径1然后通过路径3到达的,那么我可以立即使用它来查找#333鼠标的数据并找到:

path1: 4 path2: 0 path3: 1 path 4: 10 Last_Chosen_Path:path3 Last_time_for_this_mice_to_arrive_at_this_position: 2002.05.01

其中,每条路径后的数字是小鼠选择经过这些路径的次数。我还希望获得有关上次鼠标到达此路口的选择路径以及鼠标最后一次到达此位置的日期的信息。

我已经考虑了一段时间,并且提出了将其存储在数据框中的最佳方法,其中每一列是单个鼠标上的数据,每一行是到达每个可能节点的路径例如“ path1.path2”。我可以创建两个这样的数据框,一个用于存储每次访问的频率,另一个用于保存日期,例如[row path1.path1,col ='mice 333']将是鼠标333选择后选择路径1的日期最初是路径1。

我可能想找到一种可能更好的分类方法。是否在每个节点上都有像树一样带有数据帧的数据结构?这样,我可以使用特定节点上的数据框存储数据,以决定到达那里的鼠标的决定。

第二,有一种方法可以使存储更有效,因为在大多数情况下,小鼠会选择相似的路径,而大部分路径未开发。

0 个答案:

没有答案