Google的BigQuery与Azure数据湖U-SQL

时间:2016-04-25 18:29:03

标签: azure google-bigquery google-cloud-platform azure-data-lake u-sql

我正在尝试了解Google的大查询和Azure数据Lake U-SQL之间的区别或优缺点。哪个更好 ?我已经详尽地搜索了最大的区别但却无法找到它。

1 个答案:

答案 0 :(得分:8)

好的,这两种技术之间存在一些根本区别。

数据形态

  1. Google大查询 - 他们会要求您将数据转换为特定数据 形状如json,csv或Avro。
  2. 数据湖 - 他们只是要求您转储您在湖商店中的所有内容,并且可以在其上运行usql查询。
  3. 数据大小

    Google大查询对文件大小有限制 - https://cloud.google.com/bigquery/loading-data-into-bigquery#quota虽然限制很大

    Data Lake - 对文件大小没有正式的限制,你几乎可以从Petabyte文件开始。

    最大的区别在于查询模型之间,但在此之前必须知道您还可以在Azure数据湖商店之上运行HBase工作负载,而HBase实际上是谷歌大表的开源实现,还有许多其他细微差别你可以在这里看到http://www.larsgeorge.com/2009/11/hbase-vs-bigtable-comparison.html

    google big查询本身并不是编译查询,而USQL是SQL语法与CLR功能的结合,首先编译USQL查询然后遍历数据存储,这样就可以编写自定义函数与他们的查询一起使用来解析或使用diff数据形式。 甚至可以使用Azure数据湖工具可视化USQL查询的执行计划。 Big query和USQL都很容易理解和使用。

    身份验证

    1. Google大查询具有标准API身份验证 https://cloud.google.com/bigquery/authentication
    2. ADL - 应用程序和用户的身份验证由Azure AD控制。
    3. 作为一个大数据平台都需要尊重,但我个人认为Azure Data湖是一个更好的实现,因为它允许灵活地使用开源项目,如spark,storm,hive,pig等,而big table限制你的只有谷歌生态系统的能力。

      在我的Twitter处理@brijrajsingh与我联系,如果你能在GIDS班加罗尔做到这一点,我将在2016年4月29日举办关于数据湖的会议

相关问题