我是HDInsight / Hadoop新手,但我正在尝试使用HDInsight从存储在Azure Blob容器中的Azure App Service计划中提取所有原始IIS日志文件,以便我可以执行某些操作分析和查询一些统计数据。在一个Blob容器中,我们有大约240,000个日志文件,大约36GB。我尝试使用D3_V2 VM大小启动4个工作节点集群并执行:
set hive.mapred.supports.subdirectories=true;
set mapred.input.dir.recursive=true;
CREATE EXTERNAL TABLE IISLogs (
s_date date,
s_time string,
s_sitename string,
....
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
STORED AS TEXTFILE LOCATION 'wasb://xxxx@xxxxx.blob.core.windows.net/'
TBLPROPERTIES("skip.header.line.count"="2");
然而,在这个实验大约11-12小时后,它超时了。
有没有人有从Azure Blob存储中加载类似数量的文件的经验?您对群集大小(工作者数量和VM大小)使用了什么以及创建表的时间是什么?有没有更好的方法去做我想做的事情?