HDInsight和读取Blob文件群集大小

时间:2016-06-10 18:42:22

标签: azure hadoop azure-storage-blobs hdinsight

我是HDInsight / Hadoop新手,但我正在尝试使用HDInsight从存储在Azure Blob容器中的Azure App Service计划中提取所有原始IIS日志文件,以便我可以执行某些操作分析和查询一些统计数据。在一个Blob容器中,我们有大约240,000个日志文件,大约36GB。我尝试使用D3_V2 VM大小启动4个工作节点集群并执行:

set hive.mapred.supports.subdirectories=true;
set mapred.input.dir.recursive=true;

CREATE EXTERNAL TABLE IISLogs (
    s_date date, 
    s_time string, 
    s_sitename string, 
    ....
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' 
STORED AS TEXTFILE LOCATION 'wasb://xxxx@xxxxx.blob.core.windows.net/' 
TBLPROPERTIES("skip.header.line.count"="2");

然而,在这个实验大约11-12小时后,它超时了。

有没有人有从Azure Blob存储中加载类似数量的文件的经验?您对群集大小(工作者数量和VM大小)使用了什么以及创建表的时间是什么?有没有更好的方法去做我想做的事情?

0 个答案:

没有答案