从SAS到Hive的数据提取

时间:2019-01-05 07:41:25

标签: hive sas hdfs

我有一个要求,将以特定格式提供来自SAS的表“ abc.sas7bdat”形式的表以及libref(请参见以下代码:libname xxx'/ workspace / abc / xyz')。我需要从该数据集创建一个配置单元表。我正在使用以下代码。此代码在Hive中创建表,但表为空。经过进一步研究,我发现hdfs-site.xml中可能缺少以下参数

<property>
      <name>dfs.client.use.datanode.hostname</name>
      <value>true</value>
</property>

我在hdfs-site.xml中找不到此属性,这说明了为什么表为空。

我的问题是,我需要提取1GB到200GB以上大小的数据。我如何加快这一过程?我只能访问放置了文件的Unix计算机,并且不确定是否已安装所有文件。

当前代码:

options set=SAS_HADOOP_RESTFUL=1;
options set=SAS_HADOOP_JAR_PATH=<jar path>;
options set=SAS_HADOOP_CONFIG_PATH=<config path>;
options nofmterr;
%let svr = %NRSTR('server.abc.com');
%let stng = %NRSTR('stored as parquet');
 libname aaa hadoop server=&svr hdfs_tempdir='/tmp/sastmp' user = 'username'
password = pxxx schema='schema name' port 10000
DBCREATE_TABLE_OPTS=`&stng`
subprotocol=hive2;
libname xxx '/workspace/abc/xyz';
data aaa.test;
set xxx.abc.test; 
run;

0 个答案:

没有答案