我想提出一个名为HDInsight的SQL Server Hadoop发行版的问题。
鉴于有一个连接提供给Hadoop,有没有人有HDInsight的经验,尤其是Hadoop / SQL Server连接器和HDIinsight / SQL Server从现实DTP场景或个人1节点安装之间的比较?
http://sqlmag.com/blog/use-ssis-etl-hadoop
http://www.microsoft.com/en-us/download/details.aspx?id=27584
http://www.microsoft.com/en-us/sqlserver/solutions-technologies/business-intelligence/big-data.aspx
答案 0 :(得分:2)
HDInsight是Microsoft维护用于Azure的Hadoop的分发版。您可以粗略地将其与Amazon Elastic MapReduce进行比较。它们都有助于成为托管的Hadoop服务,几乎没有管理开销。
Hortonworks Data Platform for Windows包含Hortonworks和Microsoft合作的开源更改,以使Hadoop在Windows上运行良好。 HDP不是HDInsight。
简而言之 - 如果您想在Windows环境中运行Hadoop,则无需使用HDInsight。
虽然我无法直接使用HDInsight并在SQL Server之间来回移动数据,但我已经实现了data processing solution using SQL Server, Hadoop, and Elastic MapReduce。除了一些数据质量问题和BULK INSERT
奇怪之外,这个过程是无痛的。
最后,您问“我们真的想在Windows服务器上运行Hadoop大小数据集吗?” - Windows运行良好,并具有可靠的工具。由于遗留的Java I / O问题和缺乏社区支持,我对在Windows上运行Hadoop和其他Java平台软件持怀疑态度,而不是因为任何性能问题。
Windows公司发现迁移到Hadoop的最大问题是,当问题成为Hadoop + Windows问题时,社区论坛和渠道的支持将会有限。人们很容易举起手来说“没有,没有帮助,没有Windows”。随着时间的推移和采用,这个问题就消失了。此外,没有什么说你必须在你开始的同一平台上完成。您可以在Windows上轻松部署HDP,并在以后转移到Linux上的HDP。
我已经整理了一些应该有帮助的SQL Server and Hadoop basics for DBAs。