从HDInsight中的Azure表存储中读取数据

时间:2015-12-10 21:19:46

标签: azure-storage-blobs azure-table-storage hdinsight

我想使用Azure Table Storage作为在HDInsight上运行的Hadoop应用程序的数据源。我只是通过MSFT找到this library但是没有足够的文档。我有一些关于从Azure Table采购的问题:

1)数据块是如何形成的?我们可以将一个分区的记录分配给每个映射器吗?如果是,如果分区包含大量记录会发生什么?如果没有,那是怎么回事?

2)Hadoop应用程序是否也可以输出到Azure Table?

3)Hadoop作业可以从两个(或更多)Azure表中获取数据吗?如果是这样,如何在映射器中区分它们?例如当从多个文件中获取数据时,我们可以根据输入的文件名来区分记录。

1 个答案:

答案 0 :(得分:0)

这篇博客文章记录了一下并回答了关于地图制作者的问题: http://blogs.msdn.com/b/mostlytrue/archive/2014/04/04/analyzing-azure-table-storage-data-with-hdinsight.aspx

据我所知,您无法使用此库插入Azure表存储。

我相信你可以通过创建两个外部表并在Hive中加入它们来读取两个表。