什么是大数据&什么归类为大数据?

时间:2016-02-22 18:10:36

标签: ssis data-mining bigdata

我已经阅读了很多文章,但我似乎没有得到关于什么是大数据的完全清楚的答案。在一个页面中,我看到“任何对您的使用来说更大的数据都是大数据,即100 MB被认为是您邮箱的大数据,而不是您的硬盘”。而另一篇文章说“大数据通常超过1 TB,不同的数量/种类/速度,不能存储在一个系统中”。此外,该数据应存储在NOSQL数据库中,其中Hadoop用于转换数据。

此外,我一直在研究解决方案,并想知道我是否可以将其归类为大数据。以下解决方案的片段,

  • 数以百万计的原始数据记录,通常还有500多GB的数据。
  • SQL数据库作为后端和SSIS / SQL查询来清理/处理数据并将其转换为有意义的形式。
  • 使用Spotfire进行可视化

非常感谢任何帮助。谢谢!

3 个答案:

答案 0 :(得分:7)

大数据只不过是各种各样的庞大而复杂的数据,这些数据在捕获,存储,处理,检索和分析数据时变得非常繁琐。

来自ibmbigdatahub artcile和edureka文章

Bigdata可以用四个V来定义。

  1. 音量:使数据“大”的主要特征是数量庞大。它可能达到数百TB或甚至数PB的信息。例如,15TB的Facebook帖子或4000亿年度医疗记录可能意味着大数据!

  2. 速度:速度是指数据在公司中流动的速度。大数据需要快速处理。时间因素在几个组织中起着非常重要的作用。例如,在股票市场处理200万条记录或评估申请竞争性考试的数百万学生的结果可能意味着大数据!

  3. 多样性:大数据可能不属于特定格式。它可以是任何形式,如结构化,非结构化,文本,图像,音频,视频,日志文件,电子邮件,模拟,3D模型等。

  4. 准确性:准确性是指可用数据的不确定性。可用的数据有时会变得混乱并且可能难以信任。对于许多形式的大数据,质量和准确性难以控制

  5. enter image description here

答案 1 :(得分:5)

大数据是:

大老板认为这是一个大机会因为数据是新的石油和黄金,并获得大笔资金扔掉一扇窗户,将它冲下去。然后你的数据仓库和孤岛变成了一个数据湖,数据湖充满了 synergy ,变成了一个充满腐烂的数据沼泽; 大视野击中了现实,而不是所有闪耀的东西都是黄金。然后厄运的大门打开,它就会到来,即将爆裂的大泡沫。通过幻灭的桥梁很小,你不会通过,而是会进入所有无用数据的大深渊,没有后者如何在没有计划或目标的情况下收集,绘制和减少。宾果!

答案 2 :(得分:3)

大数据定义&分类法NIST Big Data Public Working Group的子组发布了定义NIST Big Data Interoperability Framework: Volume 1, Definitions

的卷

行情:

  

大数据是指传统数据架构无法实现的   有效地处理新数据集。大数据的特征   强迫新的架构是:

     
      
  • 卷(即数据集的大小);
  •   
  • 多样性(即来自多个存储库,域或类型的数据);
  •   
  • 速度(即流速);和
  •   
  • 可变性(即变化   在其他特点)。
  •   
     

这些特征 - 数量,种类,   速度和可变性 - 通俗地称为Big的'Vs'   数据

  

大数据 由广泛的数据集组成 - 主要是在卷的特征中,   多样性,速度和/或可变性 - 需要可扩展的架构以实现高效   存储,操作和分析。