在大型数据集上应用计算

时间:2015-04-28 11:22:17

标签: bigdata computation

我目前正在优化我们的数据仓库和使用它的流程,并且我正在寻找一些建议。 问题是我不确定检索数据的计算结果。

为了使事情更加清晰,例如我们有以下数据结构:

id : 1
param: static_value
param2: static_value

让我们考虑一下这个结构我们有大约5000万条目。 另外,我们假设我们每分钟查询此数据集约30次,每次至少有10k个条目。

所以,简而言之,我们得到了这些统计数据:

  • 数据集:5000万条目。
  • 访问频率:30 / s。
  • 产生的数据大小:~10k结果

在结果数据集中的每个查询中,我必须考虑每个条目并对其应用一些计算,这会产生一个字段(例如 param3 )及其动态值。例如:

Query2(2k结果)及其中一个条目:

id : 2
param: static_value_2
param2: static_value_2
param3: dynamic_value_2

Query3(10k结果)及其中一个条目:

id : 3
param: static_value_3
param2: static_value_3
param3: dynamic_value_3

等等..

问题在于,由于计算中使用了许多动态值,因此我无法通过查询获取字段 param3 值。 p>

主要问题:

是否有任何指导方针,实践甚至是用于优化此类“问题”或实施此类解决方案的技术?

感谢您提供任何信息。

更新1:

字段" param3" 是针对每个数据结果条目中的每个查询计算的,这意味着此计算值不会存储在它刚刚在每个查询中计算的任何存储中。我无法存储此值,因为它是动态的,并且取决于许多变量,因为这样我无法在动态时将其存储为静态值。

我认为进行此类实施并不是一个好习惯吗?

0 个答案:

没有答案