我有2100万行(csv文件中的行),我想导入MongoDB进行报告。
数据在我们组织内的每台PC上都有一个过程 - 每15分钟创建一行显示谁登录。
列是:日期/时间,PC名称,用户名,空闲时间(如果用户已登录)
我需要能够从PC POV(PC使用指标)和用户POV(用户停留时间和活动/移动)进行报告。
最初我只是使用mongoimport加载数据。但是这种原始数据结构不容易报告。这可能仅仅是因为我对MongoDB缺乏了解。
我一直在阅读http://blog.mongodb.org/post/65517193370/schema-design-for-time-series-data-in-mongodb,这是关于mongodb中时间序列数据的架构设计的精彩文章。
这对于报告PC使用情况是有意义的 - 因为我可以预处理数据并将其作为每个PC /日期组合的一个文档加载到Mongo中,并带有一小时桶数。
但我怀疑这会使用户POV的报告变得困难。
我现在正在考虑创建两个集合 - 一个用于PC数据,另一个用于用户数据(每个用户/日期组合一个文档等)。
我想知道我是否走在正确的轨道上 - 或者是否有人可以提出更好的解决方案,如果确实原始的原始数据就足够了 - 而我只需要知道如何从两个角度进行查询(某种map-reduce)。
由于 添