想了解Netezza
或Hadoop
是否是出于以下目的的正确选择:
从数个相当大的在线资源中提取饲料文件的时间超过GB。
清理,过滤,转换和计算Feed中的更多信息。
生成不同维度的指标,类似于数据仓库多维数据集的执行方式,
使用SQL或任何其他标准机制帮助Web应用程序更快地访问最终数据/指标。
答案 0 :(得分:6)
工作原理:
当数据加载到设备中时,它会智能地分隔108个SPU中的每个表。
通常情况下,
硬盘是计算机中最慢的部分。想象一下,其中108个一次旋转,加载一个小的
一块桌子。这就是Netezza如何实现每小时500千兆的加载时间。
在将一张桌子装入并存储在每个SPU(集成电路卡上的计算机)上之后
分析列以获得描述性统计,例如最小值和最大值。这些值是
存储在108个SPU中的每一个上,而不是索引,这需要时间来创建,更新和占用
不必要的空间。
想象您的环境,而无需创建索引。
当需要查询数据时,设备内部的主计算机会查询SPU以查看哪些数据
其中包含所需的数据。
因此,只有包含适当数据的SPU返回信息
通过网络向商业智能/分析服务器移动的信息较少。
对于加入数据,它会变得更好。
设备在多个SPU中的多个表中分发数据
一把钥匙。每个SPU包含多个表的部分数据。它在每个SPU上本地连接每个表的部分
仅返回本地结果。所有“本地结果”都在机柜内部组装然后
作为查询结果返回到Business Intelligence / Analytics Server。这种方法也有所贡献
速度故事。
所有这一切的关键是“通过网络减少数据移动”。设备仅返回数据
需要在整个组织的1000/100 MB网络中返回商业智能/分析服务器
这与商业智能/分析软件通常的传统处理非常不同
从数据库中提取大部分数据,以便在自己的服务器上进行处理。数据库做了
努力确定所需的数据,将较小的子集结果返回到商业智能/分析
服务器。
备份和冗余
要了解数据和系统如何设置几乎100%的正常运行时间,重要的是要了解
内部设计。它使用每个400千兆字节磁盘的外部,最快,三分之一部分进行数据存储
恢复。三分之一的磁盘存储描述性统计信息,另外三分之一存储热数据
其他SPU。每个设备机柜还包含4个额外的SPU,用于自动故障切换108中的任何一个
的SPU。
从http://www2.sas.com
答案 1 :(得分:2)
我会考虑将批处理ETL过程的设计与进一步的SQL请求分开。我认为 以下数字对评估决策非常重要:
a)您希望每天处理多少行数据? b)您想在系统中存储多少行数据? c)RDBMS数据集的大小是多少 d)你将拥有什么样的SQL?我的意思是 - 有特别的SQL或精心策划的报告。另一个问题 - 你需要两个大表之间的jons。
通过回答上述问题,可以提供更好的答案。 例如,当你需要连接非常大的表和hadoop时,我会考虑选择Netezza - 如果你需要存储数TB的数据。
答案 2 :(得分:2)
从您的回答中可以看出,Netezza可能更适合您的需求。它可以很好地处理即席查询,并且最新版本的软件内置了对汇总和多维数据集的支持。此外,Netezza以数TB的数据运行,因此您应该能够处理您可用的数据。
答案 3 :(得分:0)
如果您正在处理ELT场景,您必须加载大量文件并在以后处理它,例如过滤,转换并将其加载到传统数据库以进行分析,那么您可以使用hadoop加载文件,然后使用Netezza作为目标登台或数据仓库区域。使用hadoop,您可以将所有文件放入HDFS,然后使用ETL工具进行转换,过滤等,或使用Hive SQL将查询数据写入这些文件中。但是,基于hadoop的数据仓库HIve不支持更新,并且不支持所有SQL语句。因此,最好从HDFS读取这些文件,应用过滤器,转换并将结果加载到传统数据仓库设备(如netezza)以编写多维数据集的查询。
如果您每天将GB数据加载到具有登陆,登台和集市区域的netezza,那么您很可能最终会占用大量空间。在这种情况下,您可以使您的着陆空间位于hadoop上,然后使您的舞台和集市区域成为netezza。如果您的查询很简单,并且您没有进行非常复杂的过滤等,或者您可以使用hadoop管理所有内容。
总之,hadoop是大量数据的理想选择,但不支持传统数据仓库的所有功能。
您可以查看此链接以查看差异: http://dwbitechguru.blogspot.ca/2014/12/how-to-select-between-hadoop-vs-netezza.html