应用错误收集

netezza如何运作？它与Hadoop相比如何？

时间：2010-12-29 11:34:51

标签： hadoop netezza

想了解Netezza或Hadoop是否是出于以下目的的正确选择：

从数个相当大的在线资源中提取饲料文件的时间超过GB。
清理，过滤，转换和计算Feed中的更多信息。
生成不同维度的指标，类似于数据仓库多维数据集的执行方式，
使用SQL或任何其他标准机制帮助Web应用程序更快地访问最终数据/指标。

4 个答案:

答案 0 :(得分：6)

工作原理：
当数据加载到设备中时，它会智能地分隔108个SPU中的每个表。
通常情况下，硬盘是计算机中最慢的部分。想象一下，其中108个一次旋转，加载一个小的一块桌子。这就是Netezza如何实现每小时500千兆的加载时间。
在将一张桌子装入并存储在每个SPU（集成电路卡上的计算机）上之后分析列以获得描述性统计，例如最小值和最大值。这些值是存储在108个SPU中的每一个上，而不是索引，这需要时间来创建，更新和占用不必要的空间。
想象您的环境，而无需创建索引。当需要查询数据时，设备内部的主计算机会查询SPU以查看哪些数据其中包含所需的数据。
因此，只有包含适当数据的SPU返回信息通过网络向商业智能/分析服务器移动的信息较少。对于加入数据，它会变得更好。
设备在多个SPU中的多个表中分发数据一把钥匙。每个SPU包含多个表的部分数据。它在每个SPU上本地连接每个表的部分仅返回本地结果。所有“本地结果”都在机柜内部组装然后作为查询结果返回到Business Intelligence / Analytics Server。这种方法也有所贡献速度故事。
所有这一切的关键是“通过网络减少数据移动”。设备仅返回数据需要在整个组织的1000/100 MB网络中返回商业智能/分析服务器这与商业智能/分析软件通常的传统处理非常不同从数据库中提取大部分数据，以便在自己的服务器上进行处理。数据库做了努力确定所需的数据，将较小的子集结果返回到商业智能/分析服务器。
备份和冗余
要了解数据和系统如何设置几乎100％的正常运行时间，重要的是要了解内部设计。它使用每个400千兆字节磁盘的外部，最快，三分之一部分进行数据存储恢复。三分之一的磁盘存储描述性统计信息，另外三分之一存储热数据其他SPU。每个设备机柜还包含4个额外的SPU，用于自动故障切换108中的任何一个的SPU。
从http://www2.sas.com

开始

答案 1 :(得分：2)

我会考虑将批处理ETL过程的设计与进一步的SQL请求分开。我认为以下数字对评估决策非常重要：

a）您希望每天处理多少行数据？ b）您想在系统中存储多少行数据？ c）RDBMS数据集的大小是多少 d）你将拥有什么样的SQL？我的意思是 - 有特别的SQL或精心策划的报告。另一个问题 - 你需要两个大表之间的jons。

通过回答上述问题，可以提供更好的答案。例如，当你需要连接非常大的表和hadoop时，我会考虑选择Netezza - 如果你需要存储数TB的数据。

答案 2 :(得分：2)

从您的回答中可以看出，Netezza可能更适合您的需求。它可以很好地处理即席查询，并且最新版本的软件内置了对汇总和多维数据集的支持。此外，Netezza以数TB的数据运行，因此您应该能够处理您可用的数据。

答案 3 :(得分：0)

如果您正在处理ELT场景，您必须加载大量文件并在以后处理它，例如过滤，转换并将其加载到传统数据库以进行分析，那么您可以使用hadoop加载文件，然后使用Netezza作为目标登台或数据仓库区域。使用hadoop，您可以将所有文件放入HDFS，然后使用ETL工具进行转换，过滤等，或使用Hive SQL将查询数据写入这些文件中。但是，基于hadoop的数据仓库HIve不支持更新，并且不支持所有SQL语句。因此，最好从HDFS读取这些文件，应用过滤器，转换并将结果加载到传统数据仓库设备（如netezza）以编写多维数据集的查询。

如果您每天将GB数据加载到具有登陆，登台和集市区域的netezza，那么您很可能最终会占用大量空间。在这种情况下，您可以使您的着陆空间位于hadoop上，然后使您的舞台和集市区域成为netezza。如果您的查询很简单，并且您没有进行非常复杂的过滤等，或者您可以使用hadoop管理所有内容。

总之，hadoop是大量数据的理想选择，但不支持传统数据仓库的所有功能。

您可以查看此链接以查看差异： http://dwbitechguru.blogspot.ca/2014/12/how-to-select-between-hadoop-vs-netezza.html