我对安装Platfora和Datameer分析工具感兴趣。我怀疑在这些工具的文档中,我们看到现有的Hadoop发行版,他们给出了兼容性列表,包括CDH,HDP和MapR。 但我想在现有的普通Hadoop中安装它们。即我已经通过逐个下载Apache Hadoop组件并准备好群集来安装Hadoop。
这些工具会在这种情况下起作用吗?
答案 0 :(得分:5)
您可以通过选择Hortonworks'来使用普通的Apache Hadoop安装Platfora。 HDP发布 - HDP发布的核心是普通的Apache Hadoop。 (我在Platfora工作。我们支持许多不同的Hadoop发行版,但我们的很多开发实际上是使用普通的Apache Hadoop完成的。)
Platfora不仅将Hadoop集群用于输入数据,还通过生成本机MapReduce和Apache Spark作业来处理原始,高容量,结构化或半结构化的输入数据(JSON,XML,日志文件,CSV,Avro,数据)从Hive,其他处理管道和库的输出,你的名字)。这可以很好地扩展,但是对于分析问题中的每个更改,在工作流程中使用MapReduce或Spark等更高的延迟框架会给您带来很长的周转时间 - 对生产力不利。这就是为什么Platfora使用支持低延迟可视化发现前端的分布式横向扩展内存查询引擎来访问这些中间结果的原因。这种端到端的方法使得通过交互式(亚秒级)视觉体验可视化和理解数据PB的模式变得非常容易 - 类似于Tableau但是Hadoop本身以及现代多语言的规模和复杂性结构化数据。
答案 1 :(得分:0)
是的,它有效。只要您使用“最新稳定”纱线,HDFS和Map Reduce版本 - Datameer就可以正常使用。除此之外的任何事情都没关系,因为Datameer没有使用Hive,Oozie或任何其他组件,但是在应用程序中预先打包了tez,spark等,并在Yarn上为您透明运行。截至今天,我们支持50种不同版本的Hadoop。
我显然无法代表Platflora,但他们并不真正在Hadoop上运行本机,只是将数据从Hadoop中提取到在额外群集上运行的内存柱状数据库中: +额外的扩展硬件(内存密集) +自SQL以来的结构化数据(记得Hadoop是作为NO-SQL构建的) +仅限小数据(因为在内存中) +自基于SQL以来没有像图分析这样的高级分析
HTH Stefan(我在Datameer工作)