我对数据科学很陌生,现在只是开始开发一个系统,要求我分析大数据(例如每个数据库中有5到6百万条记录)。
从更大的角度来看:我有多个DB,包含需要集成的各种数据。在整合数据之后,我还需要执行一些数据分析。最后,我需要将数据可视化到许多客户端。
总的来说,我想知道处理大数据的当前技术/趋势是什么(即使用java框架)
答案 0 :(得分:2)
答案是:取决于您的非功能性要求。您的用例对于决定使用哪种技术至关重要。 让我分享一下我的经验,以澄清我的意思:
2012年,我需要每月处理约200万个非结构化记录,并执行熵(信息理论)和相似度算法,每分钟约600个请求。 我们的场景由:
组成考虑到这些要求(和许多其他要求),以及用[Casandra] [2],[Hadoop] [3],[Voldmort] [4],[neo4j] [5]执行PoC,以及压力测试,弹性,可扩展性和稳健性,我们在那个时刻(2012)获得了最佳解决方案:
所以,一切都取决于你的要求。没有银弹。每种情况都需要进行架构分析。
我记得当时的Nasa正在使用Hadoop在AWS处理每小时约1TB,因为[火星项目有好奇心] [11]。
在您的情况下,我建议您注意您的要求,也许是Java框架,这不是您需要的(或者不仅仅是您需要的):