在大型数据集中搜索(在框中保留=>会议)

时间:2013-11-17 00:07:42

标签: mysql database hadoop dataset bigdata

我正在研究老鼠的社交互动模型。我有鼠标和盒子以及模拟输出哪个鼠标停留在哪个时间段内的盒子。问题是如何最终获得两只老鼠在重叠时期在同一个盒子里的会议。

现在我有一个MySQL数据库,模拟直接插入每个停留结果。然后另一个用Scala编写的工具只检索所有停留结果,在几百个部分中循环通过它们,并且每个工具都要求数据库保留与它重叠,并将每个对插入数据库,如下所示: / p>

`box`,`id1`, `res_id1`, `id2`, `res_id2`, `from`, `to`, `dt`, `typ`

这意味着小鼠id1和id2在“from”和“to”之间的间隔“box”框中,持续时间为“dt”,会议类型为“typ”。根据每个鼠标在盒子中的时间(例如,当一个鼠标相对于另一个进入和离开时),可以有四种类型的会议。 “res_id1”和“res_id2”告诉我们使用哪些结果来生成会议结果。

显然,这是非常低效的。做一个更好的方法是什么?我并不局限于使用RDMS,但我认为这是最简单的,因为我正在阅读并进一步分析R中的数据。在文本文件中输出停留然后使用Hadoop以某种方式生成会议是否有意义?还是其他什么?

在模拟试验的大约四分之一的时间内,我产生大约150万个停留结果。

0 个答案:

没有答案