应用错误收集

我将此发布到StackOverflow，cstheory.stackexchange.com和math.stackexchange.com，因为我不确定它最合适的位置。我希望没关系。

我有一个2D网格（每个地图的大小不同，范围从10X10到20X20，必然是正方形），其中每个单元格包含每个单位（10到50取决于地图）的概率（0到1）就在那个地方。

有两种主要类型的单位，有大单位的行为由你希望帮助我的算法控制，并且有小单位只能移动或他们的（布尔）状态改变在大单位的帮助下。所有单位都属于团队，但任何大单位都可以移动任何小单位。根据较小单位的位置和状态对比赛进行评分。每个单位都知道自己的坐标。

在多个指定单元格中的任何一个单元中都有一个小单位可以获得积分，奖励的是相邻单元格占用的数量 - 注意邻接并不一定意味着相邻的单元格坐标，并且将根据地图确定。

我已经有了一个路径系统，因此这不是一个问题，也不是计算移动的时间成本，尽管出于性能原因这应该被称为最低限度。

我的目的是让计划系统输出一系列所需的状态/动作。例如，在（9,4）处以43度的角度，然后在（12,4）处12度并且在那里启用小单元。

我试图确定5个竞争主要单位中每个主要单位的最佳动作，以便在时间用完时优化其团队的完成位置。这些单元具有模拟传感器，用于填充概率位置，因此收集信息是一种有效的移动。

理想情况下，该算法会向前看一些动作，并考虑一个特定的动作是否能让你处于有利位置以执行下一步动作 - 这个位置的“好”只是路径的倒数成本。

性能在这里非常重要，我可能愿意交换解决方案质量以获得显着的性能提升。

到目前为止，我的想法是：

虽然如果有人提供完整的解决方案会很棒，但我绝对愿意接受我能得到的任何帮助/提示，并会接受让我走得最远的答案，无论多远与否。我对算法感兴趣而不是代码，我可以自己处理，因为我现在是一个大女孩。