大数据分析模拟

时间:2018-03-03 20:16:12

标签: hadoop cloud data-analysis

有史以来第一篇文章,所以我们走吧! (感谢您花时间阅读!)

我目前正在大学学习并正在研究一个关于不同硬件(特别是ram-disk与hard rive)如何影响大数据分析速度的研究项目。我知道如何设置各种硬件和所有爵士乐,但是,我以前没有大数据分析的经验,在找了几天之后我找不到答案(即使在这里)。我需要任何软件才能模拟大数据分析 - 我已经阅读过Hadoop,但不知道从哪里开始 - 而且似乎即便有它也没有模拟。 我如何获取软件以及要分析的数据?具体来说,我可以作为一个控制组运行,然后再将数据存储在ram磁盘上,以查看是否有性能提升。

我真的觉得在这里过头而且不知道从哪里开始,所以欢迎任何帮助或提示。非常感谢你!

为了澄清,我希望从一个非常小规模的数据库开始,但我也有资源与我的学校建立一个非常大的驱动器,以便能够进行测试。

1 个答案:

答案 0 :(得分:0)

市场上有很多数据库解决方案。 但是,必须设计大数据DB来处理这些特定数据。大数据的特征总结为3V,即数据量,速度和变化。 大数据是TB(TB)或更多的大量数据。这是大数据的最基本功能,这意味着仍有大量数据仍然通过多个路径生成。 此外,必须根据用户的需求实时收集和分析大量数据。大数据的多样性有多种形式。也就是说,它包括所有类型的数据,例如常规,半规则和不规则数据。除了书籍,杂志,医疗记录,视频和音频等传统指示数据外,它还包括具有位置信息的数据。 Machbase database是您可以尝试的大数据软件之一。此DB网站还提供用户手册和入门页面,用户可以轻松地按照说明操作。祝你好运!!