我参与了一个有两个阶段的项目,我想知道这是一个大数据项目(我是这个领域的新手)
在第一阶段我有这种情况:
在第二阶段,我需要分析存储的数据并构建报告并对它们进行一些分析
关于数据量的一些例子;在一天之内,我可能需要收集和存储大约86.400.000记录
现在我正在考虑这种架构:
现在这将解决我的第一阶段问题
但是第二阶段呢?
我正在考虑一些大数据SW(如hadoop或spark)和一些机器学习SW;所以我可以从数据库中检索数据,分析它们,以更好的方式构建或存储,以便建立良好的报告并进行一些特定的分析
我想知道这是否是最好的方法
你会如何解决这种情况?我是以正确的方式吗?
谢谢
安吉洛
答案 0 :(得分:1)
正如siddhartha所回答的,您的项目是否可以被标记为bigdata项目,取决于项目的上下文和buiseness域/案例。
来到技术堆栈,您提到的每种技术都有特定的用途。例如,如果您有结构化数据,则可以使用任何具有查询支持的新年龄数据库。 NoSQL数据库有不同的风格(columner,基于文档,键值等),因此技术选择又取决于您拥有的数据类型和用例。我建议你在接听最终电话之前做一些POC和技术分析。
答案 1 :(得分:0)
大数据的定义因用户而异。对于谷歌100 TB可能是一个小数据但对我来说这是大数据,因为可用硬件商品的差异。 Ex - > Google可以拥有50000个节点的集群,每个节点具有64 GB Ram,用于分析100 Tb数据,因此对于他们来说这不是大数据。但我不能拥有50000节点的集群,所以对我来说这是大数据。
如果有商品硬件,你可以继续使用hadoop。由于你没有提到你每天都在生成的文件大小,我无法确定你的情况。但是,由于像spark这样的新项目可以帮助您在更短的时间内处理数据,而且它还为您提供实时分析功能,因此hadoop始终是处理数据的理想选择。所以根据我的说法,如果你可以使用spark或hadoop更好,那么你可以使用你的数据。此外,由于你想使用nosql数据库,你可以使用hadoop提供的hbase来存储你的数据。
希望这能回答你的问题。