我听说Data Lakes可以存储任何类型的数据:Relational,NoSql,图片/图像,Adobe Pdf,Excel。 如何以No-SQL格式或二进制树存储数据?还是只是像普通硬盘一样保存它?如果是这样,为什么不将其称为存储而不是数据湖呢?我正在尝试找到“数据湖”的确切存储机制
答案 0 :(得分:2)
数据湖是以其自然格式存储的数据的系统或存储库,[1]通常是对象blob或文件。数据湖通常是所有企业数据的单个存储,包括源系统数据的原始副本和用于报告,可视化,分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库的结构化数据(行和列),半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。
示例:用于托管数据湖的一种技术示例是Apache Hadoop中使用的分布式文件系统。
许多公司还使用云存储服务,例如Azure Data Lake和Amazon S3。[9]数据湖的概念引起了学术界的逐渐关注,例如,卡迪夫大学的Personal DataLake [10]创建了一种新型的数据湖,旨在通过提供单一的收集,组织点来管理个人用户的大数据。 ,并共享个人数据。[11]
早期的数据湖(Hadoop 1.0)的面向批处理(MapReduce)的功能有限,并且是唯一与之关联的处理范例。与数据湖进行交互意味着您必须具有Java方面的专业知识,包括地图缩减和高级工具,例如Apache Pig和Apache Hive(它们本身都是面向批处理的)。随着Hadoop 2.0的兴起以及YARN(又是另一个资源谈判者)接管的资源管理职责分工,流,交互,在线等新的处理范例已经可以通过Hadoop和Data Lake获得。