我最近开始与一个团队合作,该团队一直在构建一个涉及并行计算的解决方案。数据爆炸
系统的输入在一组excel文件中提供。说有5组数据A,B,C,D和E,计算出的输出是A,B,C,D和E的倍数。这个输出也会增长多年 - 即如果数据分布在5年 - yr1的输出是最小的,yr5的输出是最大的(~30亿行)
我们目前使用Microsoft SQL Server存储输入,Microsoft Orleans进行计算并将计算的输出存储在Hadoop中。我在这里有一些顾虑 - 我们正在做的事情似乎与map reduce相反,我们在团队中拥有有限的大数据技能。
我想看看是否有人在类似系统上工作以及使用了什么样的解决方案堆栈
由于