如何确定大数据

时间:2015-11-18 06:58:46

标签: hadoop bigdata

我有点困惑,我们如何将数据分类为大数据。

是否确定数据是否很大的行数。如果我有100万行数据,它是否按大数据类别分类?

或者,实际上是数据大小决定它是否是大数据。例如,GB的数据......等等?

实际上,正如我们在RDBMS中看到的那样,当行数增加时,性能会降低。虽然数据的总体规模可能较小。

6 个答案:

答案 0 :(得分:3)

大数据具有以下特征; 1,松散结构化数据的非常大的分布式聚合 - 通常是不完整的和不可访问的:

2,PB / PB的数据

3,数百万/数十亿人

4,数十亿/数万亿的记录

5,松散结构且经常分布的数据

6,平面模式,几乎没有复杂的相互关系

7,经常涉及带时间戳的事件

8,通常由不完整的数据组成

9,通常包括必须以概率推断的数据元素之间的连接,

10,涉及大数据的应用程序可以是:

11,交易(例如,Facebook,PhotoBox),或

12,Analytic(例如,ClickFox,Merced Applications)。

引自Wikibon.org

您可以在此处阅读更多定义Big Data

答案 1 :(得分:0)

顾名思义,大数据是大量的数据。但只有数据的大小或数量不足以定义大数据。除了大数据的两个主要参数是速度多样性。现在,在日常生活中,我们处理不同类型的数据,如文本,图像,音频,视频,博客等。通常,这些类型的数据被称为非结构化数据,无法通过使用关系数据库进行存储。接下来是速度。在捕获大量数据的同时,我们必须处理的一件事就是数据的速度。 Facebook,谷歌等每天都会获得超过一个peta字节的数据。对于关系数据库来说,捕获数据是不可能的。因此,我们将其称为大数据。为了捕获大数据,我们避免使用Relational数据库。相反,我们使用一些NoSQL数据库。

答案 2 :(得分:0)

大数据不仅与您的数据集大小有关,也与大处理能力有关。 您可以拥有一个小型数据集,但如果您需要大量处理能力,那么您可以利用大数据解决方案。

答案 3 :(得分:0)

大数据是与大量数据共同关联的术语。现在我们所看到的只有数据可能来自: • 信息技术 • 物联网 • 零售业 • 卫生保健 • 社交媒体 • 智能手机 •机器(传感器,汽车,飞机,火车,地铁等) • 电子商务 •银行业

但问题出现在这里我们也在很久以前从数据中获取数据,但为什么数据没有转换成大数据。我们拥有数据,很长一段时间,但如何将其转换为大数据。 所以,正如我们前面谈到的那样,我们没有这些技术。 几年前,我们从未想过这些技术会发展。我们过去住在一个非常简单的世界,但现在我们可以看到各地的技术,包括地铁,飞机,智能手机和传感器,因此我们拥有大量的数据。

例如,在这个世界上,大约98%的人拥有他们的Gmail帐户和Facebook帐户。

所以,例如我说有10个Gmail帐户。现在我需要在一天内登录这些帐户1次,所以10 * 1 = 10次登录。

在这种情况下,当任何人只登录他们的Gmail帐户时,我们会生成一个日志文件。日志文件包含完整的信息,如 - 系统的IP,mac,服务提供商,位置 - 所有内容都存储在日志文件中。

做一点计算:

截至目前,世界人口为70亿 至少有98%或90%的人拥有单一的Gmail帐户 - 约。 (6.3亿* 1)=我们在一天内从谷歌生成的63亿个日志文件以及Facebook,Twitter,YouTube等。

因此,在这种情况下,我们不断生成大量数据,因此现在数据已成为一个大数据。

大数据术语与某些因素相关,如

  1. 品种
  2. 速度 大数据意味着: •数十亿条记录 •数百万/数十亿人民 •应用程序(android,mac,windows) •技术 •不同的行业

答案 4 :(得分:0)

大数据是指在数字环境中生成的大规模数据。这个大数据通常很大,生成周期短。它不仅包括数字数据,还包括文本和图像数据。大数据环境比以前更加多样化。由于数据类型多样且规模庞大,甚至可以分析和预测人们的意见和行为。有几个大数据解决方案(例如Machbase database,Iflux DB,Hadoop等)。这些针对物联网和处理大数据进行了优化。

答案 5 :(得分:0)

大数据一词已被广泛听到多年。但是并不是每个人都有一个确切的概念,这个概念代表什么。向不知情的人进行解释的最简单方法是通过实际示例进行解释。

例如,大数据分析使您可以仅向对产品或服务感兴趣的消费者展示广告。在我们有关DMP的文章https://blog.s-pro.io/what-is-data-management-platform/中,看看它的工作方式。

几年前发生了另一起奇怪的案件。目标零售链在与客户互动时开始使用大数据和机器学习。该算法分析了客户偏好的变化方式和条件,并做出了预测。根据这些预测,客户获得了各种特别优惠。

女学生的父亲曾经抱怨说,他的女儿拿到了小册子,里面有关于孕妇的建议。后来事实证明,这个女孩确实怀孕了,尽管在申诉时她和她的父亲都不知道。该算法已捕获了特定于孕妇的客户行为更改。

那么,什么是大数据? 通常,大数据的主要定义是著名的“ 3V”(音量,速度和变化),它是分析师Gartner Doug Laney于2001年提出的。

大数据的迹象

音量 从各种来源收集的相对大量的数据,例如支付交易,用户活动跟踪器,传感器数据等。它们一起聚集到一个集合中,然后由Hadoop和Apache Spark等技术进行处理。

品种 数据以结构化和非结构化形式的各种格式出现。

速度 数据应尽快处理,因为快速的结果是最高的。我们需要非常快速地处理数据,经常需要快速获得结果,因为需要实时且频繁地实时处理频繁处理的数据的服务。

除了对大数据的传统定义外,现代研究还增加了更多的V,例如:

真实性 大量数据和各种来源要求数据处理和分析的质量和准确性。对于数据本身以及基于数据的决策的可靠性存在疑问。

有效期 考虑到数据中的失真和“噪声”量。

波动率 描述到期日期和数据持久性。

可变性 由于社交媒体趋势,每日,季节性和事件峰值数据下载以及其他因素,数据流的高峰和下降幅度可能会有很大差异。

根据选择的特征及其语义含义,可以给出以下定义:

“大数据是具有大量,快速,异构性的信息资源,需要特定的技术和分析方法才能转化为价值。”

有关大数据的更多详细信息,请参见https://blog.s-pro.io/category/big-data/