Question

我正在研究老鼠的社交互动模型。我有鼠标和盒子以及模拟输出哪个鼠标停留在哪个时间段内的盒子。问题是如何最终获得两只老鼠在重叠时期在同一个盒子里的会议。

现在我有一个MySQL数据库，模拟直接插入每个停留结果。然后另一个用Scala编写的工具只检索所有停留结果，在几百个部分中循环通过它们，并且每个工具都要求数据库保留与它重叠，并将每个对插入数据库，如下所示： / p>

`box`,`id1`, `res_id1`, `id2`, `res_id2`, `from`, `to`, `dt`, `typ`

这意味着小鼠id1和id2在“from”和“to”之间的间隔“box”框中，持续时间为“dt”，会议类型为“typ”。根据每个鼠标在盒子中的时间（例如，当一个鼠标相对于另一个进入和离开时），可以有四种类型的会议。 “res_id1”和“res_id2”告诉我们使用哪些结果来生成会议结果。

显然，这是非常低效的。做一个更好的方法是什么？我并不局限于使用RDMS，但我认为这是最简单的，因为我正在阅读并进一步分析R中的数据。在文本文件中输出停留然后使用Hadoop以某种方式生成会议是否有意义？还是其他什么？

在模拟试验的大约四分之一的时间内，我产生大约150万个停留结果。