管理大数据中的数据

时间:2016-10-21 06:46:54

标签: database data-science bigdata

我正在阅读有关傻瓜大数据的书。

  

欢迎使用傻瓜数据。大数据正在成为最多的数据之一   具有巨大潜力的重要技术趋势   改变组织使用信息来增强客户的方式   体验并转变他们的商业模式。

     

大数据使组织能够存储,管理和操纵大量数据   以正确的速度和正确的时间获得数据的数据量   正确的见解。理解大数据的关键是数据必须   管理,以便它可以满足给定的业务需求   解决方案旨在支持。大多数公司都处于早期阶段   他们的大数据之旅。

我可以理解存储意味着我们必须存储在DBMS中

我对上述文字的疑问。

  1. 作者在上述环境中管理大量数据意味着什么?示例将有所帮助。

  2. 作者用“大数据转换商业模式”的意思是什么?再举一个例子会有所帮助。

  3. 作者的意思是“在上述环境中操纵大量数据?”

3 个答案:

答案 0 :(得分:2)

以下是您的问题的答案:

1.作者在上述环境中管理大量数据意味着什么?示例将有所帮助。

  

答。当我们谈论Bigdata时,我们提到它的大规模数据。上述上下文中的大量数据表明我们可以使用bigdata平台处理的数据量的提示​​。它可能在太字节到数PB甚至更多的范围内。对于古老的关系系统而言,这一数据量是无法管理的。

Example : Twitter, Facebook, Google etc. handling Petabytes of data on a daily basis.

2.作者的意思是"组织转变他们的商业模式"有大数据?再举一个例子会有所帮助。

  

答。通过使用bigdata技术,组织可以对其业务模型有深入的了解,因此他们可以制定未来的战略,帮助他们在市场中争夺更多的业务份额。

Example : Online Retail giant Amazon thrives on user data that helps them know about user's online shopping pattern and hence they create more products and services that are likely to shoot up the business and take them way ahead of their competitors.

3.作者的意思是"在上述环境中操纵大量数据?示例将有所帮助。

  

答。我们可以使用大数据管理大量数据,但管理还不够。因此,我们使用复杂的工具来帮助我们以一种方式操纵数据,使其变成商业洞察并最终变成金钱。

Example : Clickstream data. This data consists of user clicks on websites, how much time he/she spent on a particular site, on a particular item etc. All these things when manipulated properly results in greater business insights about the users and hence a huge profit.

答案 1 :(得分:0)

  1. 大量数据表示Tera Byte中的大型文件不是MB或GB。例如,一些社交网站每天生成大约6 TB的数据。

  2. 使用传统RDBMS处理数据的组织。但他们正在实施Hadoop,Spark来轻松管理大数据。因此,他们日复一日地在新技术的帮助下改变他们的商业策略。通过分析洞察力,他们可以轻松获得客户视图。

答案 2 :(得分:0)

您的假设/理解 "我可以理解存储意味着我们必须存储在DBMS"

是很久以前的事。我在这里的详细答案中回答了这个问题。详细说明,您可以提前了解大数据概念。 (我将在随后的另一个答案中提供您列出的问题的答案。)

  1. 不仅仅是DBMS / RDBMS了。它的数据存储包括文件系统到数据存储。
  2. 大数据上下文中,它指的是 a)大数据(数据本身) 和 b)存储系统 - 分布式文件系统(高可用性,可扩展, 容错是显着的特征。高吞吐量和低延迟 是目标。)处理大量(倍数)(不一定 在I / O方面比传统DBMS更加同质或一种类型的数据 和(持久/一致)存储。 和 (延期) c)大数据生态系统,包括系统,框架,处理或处理的项目 与上述两者相互作用(和/或基于)。例。 Apache Spark。
  3. 它可以存储包括原始文件在内的任何文件。用于大数据的DBMS等效数据存储系统允许为数据提供结构或存储结构化数据。
  4. 当您将数据存储在任何普通用户设备(计算机,硬盘或外部硬盘)上时,您可以将大数据存储为商品的集群(已定义/可配置的网络节点集合)硬件和存储组件(至少具有可配置的网络IP,因此您通常需要将存储设备或磁盘安装/附加到计算机系统或服务器以具有IP)以提供单个聚合分布式(数据/文件)视图商店/存储系统。
  5. 所以数据:结构化(传统的DBMS等效),关系结构(RDMS等价),非结构化(例如,文本文件等)和半结构化文件/数据(csv,json,xml等)。
  6. 关于大数据,它可以是平面文件,文本文件,日志文件,图像文件,视频文件或二进制文件。
  7. 还有面向行和/或面向列的数据(当结构化/半结构化数据存储/处理为数据库/数据仓库数据时。示例:Hive是/ on的数据仓库Hadoop允许以原样文件格式存储结构化关系数据和csv文件等,或者像镶木地板,avro,ORC等任何特定的文件格式。)
  8. 数量/大小而言,虽然单个文件可以(不建议使用KB)MB,GB或某些时候TB聚合为TB和PB(或更多;没有;没有这样的官方限制)在商店/系统的任何时间点存储。
  9. 它可以是批量数据或离散流数据或流实时数据和源。
  10. Wide Data 在性质,大小和数量等方面超越大数据。)
  11. 预订初学者: 11.就初学者而言,虽然“傻瓜大数据”并不是一个糟糕的选择(虽然我没有亲自阅读过,但在我的软件工程学位研究期间,我知道他们的系列/风格。 ) 12.我建议你选择" Hadoop:The Definitive Guide"书。您应该选择恰好是第4版(2015年)的最新版本。它基于Hadoop 2.x.虽然它没有通过最新的2.x更新得到增强,但你会发现它非常适合阅读和阅读。

    除了

    1. 虽然Hadoop 3处于alpha阶段,但您现在无需担心。
    2. 请关注Apache Hadoop站点和文档。 (参考:http://hadoop.apache.org/) 了解并学习Hadoop生态系统。
    3. (虽然Hadoop基于大数据概念,但大数据和Hadoop现在几乎成了同义词.Hadoop是一个开源Apache项目。用于生产。)
    4. 我提到的文件系统是HDFS(Hadoop分布式文件系统)(和/或类似文件系统)。
    5. 其他云存储系统,包括AWS S3,Google云端存储和Azure Blob存储(对象存储)。
    6. 大数据 也可以存储在 NoSQL 数据库中,这些数据库用作非关系灵活架构数据存储DBMS但未针对其进行优化但严格的关系数据。如果存储关系数据,则默认情况下会删除/中断关系约束。虽然提供了接口,但它们本身并不是面向SQL的。 NoSQL数据库,如HBase(基于HDFS和基于Big Table),Cassandra,MongoDB等,具体取决于数据类型(或直接文件)存储和CAP定理的属性处理。