我有点困惑,我们如何将数据分类为大数据。
是否确定数据是否很大的行数。如果我有100万行数据,它是否按大数据类别分类?
或者,实际上是数据大小决定它是否是大数据。例如,GB的数据......等等?
实际上,正如我们在RDBMS中看到的那样,当行数增加时,性能会降低。虽然数据的总体规模可能较小。
答案 0 :(得分:3)
大数据具有以下特征; 1,松散结构化数据的非常大的分布式聚合 - 通常是不完整的和不可访问的:
2,PB / PB的数据
3,数百万/数十亿人
4,数十亿/数万亿的记录
5,松散结构且经常分布的数据
6,平面模式,几乎没有复杂的相互关系
7,经常涉及带时间戳的事件
8,通常由不完整的数据组成
9,通常包括必须以概率推断的数据元素之间的连接,
10,涉及大数据的应用程序可以是:
11,交易(例如,Facebook,PhotoBox),或
12,Analytic(例如,ClickFox,Merced Applications)。
您可以在此处阅读更多定义Big Data
答案 1 :(得分:0)
顾名思义,大数据是大量的数据。但只有数据的大小或数量不足以定义大数据。除了大数据的两个主要参数是速度和多样性。现在,在日常生活中,我们处理不同类型的数据,如文本,图像,音频,视频,博客等。通常,这些类型的数据被称为非结构化数据,无法通过使用关系数据库进行存储。接下来是速度。在捕获大量数据的同时,我们必须处理的一件事就是数据的速度。 Facebook,谷歌等每天都会获得超过一个peta字节的数据。对于关系数据库来说,捕获数据是不可能的。因此,我们将其称为大数据。为了捕获大数据,我们避免使用Relational数据库。相反,我们使用一些NoSQL数据库。
答案 2 :(得分:0)
大数据不仅与您的数据集大小有关,也与大处理能力有关。 您可以拥有一个小型数据集,但如果您需要大量处理能力,那么您可以利用大数据解决方案。
答案 3 :(得分:0)
大数据是与大量数据共同关联的术语。现在我们所看到的只有数据可能来自: • 信息技术 • 物联网 • 零售业 • 卫生保健 • 社交媒体 • 智能手机 •机器(传感器,汽车,飞机,火车,地铁等) • 电子商务 •银行业
但问题出现在这里我们也在很久以前从数据中获取数据,但为什么数据没有转换成大数据。我们拥有数据,很长一段时间,但如何将其转换为大数据。 所以,正如我们前面谈到的那样,我们没有这些技术。 几年前,我们从未想过这些技术会发展。我们过去住在一个非常简单的世界,但现在我们可以看到各地的技术,包括地铁,飞机,智能手机和传感器,因此我们拥有大量的数据。
例如,在这个世界上,大约98%的人拥有他们的Gmail帐户和Facebook帐户。
所以,例如我说有10个Gmail帐户。现在我需要在一天内登录这些帐户1次,所以10 * 1 = 10次登录。
在这种情况下,当任何人只登录他们的Gmail帐户时,我们会生成一个日志文件。日志文件包含完整的信息,如 - 系统的IP,mac,服务提供商,位置 - 所有内容都存储在日志文件中。
做一点计算:
截至目前,世界人口为70亿 至少有98%或90%的人拥有单一的Gmail帐户 - 约。 (6.3亿* 1)=我们在一天内从谷歌生成的63亿个日志文件以及Facebook,Twitter,YouTube等。
因此,在这种情况下,我们不断生成大量数据,因此现在数据已成为一个大数据。
大数据术语与某些因素相关,如
答案 4 :(得分:0)
大数据是指在数字环境中生成的大规模数据。这个大数据通常很大,生成周期短。它不仅包括数字数据,还包括文本和图像数据。大数据环境比以前更加多样化。由于数据类型多样且规模庞大,甚至可以分析和预测人们的意见和行为。有几个大数据解决方案(例如Machbase database,Iflux DB,Hadoop等)。这些针对物联网和处理大数据进行了优化。
答案 5 :(得分:0)
大数据一词已被广泛听到多年。但是并不是每个人都有一个确切的概念,这个概念代表什么。向不知情的人进行解释的最简单方法是通过实际示例进行解释。
例如,大数据分析使您可以仅向对产品或服务感兴趣的消费者展示广告。在我们有关DMP的文章https://blog.s-pro.io/what-is-data-management-platform/中,看看它的工作方式。
几年前发生了另一起奇怪的案件。目标零售链在与客户互动时开始使用大数据和机器学习。该算法分析了客户偏好的变化方式和条件,并做出了预测。根据这些预测,客户获得了各种特别优惠。
女学生的父亲曾经抱怨说,他的女儿拿到了小册子,里面有关于孕妇的建议。后来事实证明,这个女孩确实怀孕了,尽管在申诉时她和她的父亲都不知道。该算法已捕获了特定于孕妇的客户行为更改。
那么,什么是大数据? 通常,大数据的主要定义是著名的“ 3V”(音量,速度和变化),它是分析师Gartner Doug Laney于2001年提出的。
大数据的迹象
音量 从各种来源收集的相对大量的数据,例如支付交易,用户活动跟踪器,传感器数据等。它们一起聚集到一个集合中,然后由Hadoop和Apache Spark等技术进行处理。
品种 数据以结构化和非结构化形式的各种格式出现。
速度 数据应尽快处理,因为快速的结果是最高的。我们需要非常快速地处理数据,经常需要快速获得结果,因为需要实时且频繁地实时处理频繁处理的数据的服务。
除了对大数据的传统定义外,现代研究还增加了更多的V,例如:
真实性 大量数据和各种来源要求数据处理和分析的质量和准确性。对于数据本身以及基于数据的决策的可靠性存在疑问。
有效期 考虑到数据中的失真和“噪声”量。
波动率 描述到期日期和数据持久性。
可变性 由于社交媒体趋势,每日,季节性和事件峰值数据下载以及其他因素,数据流的高峰和下降幅度可能会有很大差异。
根据选择的特征及其语义含义,可以给出以下定义:
“大数据是具有大量,快速,异构性的信息资源,需要特定的技术和分析方法才能转化为价值。”
有关大数据的更多详细信息,请参见https://blog.s-pro.io/category/big-data/