Question

我是HDInsight / Hadoop新手，但我正在尝试使用HDInsight从存储在Azure Blob容器中的Azure App Service计划中提取所有原始IIS日志文件，以便我可以执行某些操作分析和查询一些统计数据。在一个Blob容器中，我们有大约240,000个日志文件，大约36GB。我尝试使用D3_V2 VM大小启动4个工作节点集群并执行：

set hive.mapred.supports.subdirectories=true;
set mapred.input.dir.recursive=true;

CREATE EXTERNAL TABLE IISLogs (
    s_date date, 
    s_time string, 
    s_sitename string, 
    ....
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' 
STORED AS TEXTFILE LOCATION 'wasb://xxxx@xxxxx.blob.core.windows.net/' 
TBLPROPERTIES("skip.header.line.count"="2");

然而，在这个实验大约11-12小时后，它超时了。

有没有人有从Azure Blob存储中加载类似数量的文件的经验？您对群集大小（工作者数量和VM大小）使用了什么以及创建表的时间是什么？有没有更好的方法去做我想做的事情？

HDInsight和读取Blob文件群集大小

0 个答案: