我有一个要求,将以特定格式提供来自SAS的表“ abc.sas7bdat”形式的表以及libref(请参见以下代码:libname xxx'/ workspace / abc / xyz')。我需要从该数据集创建一个配置单元表。我正在使用以下代码。此代码在Hive中创建表,但表为空。经过进一步研究,我发现hdfs-site.xml中可能缺少以下参数
<property>
<name>dfs.client.use.datanode.hostname</name>
<value>true</value>
</property>
我在hdfs-site.xml中找不到此属性,这说明了为什么表为空。
我的问题是,我需要提取1GB到200GB以上大小的数据。我如何加快这一过程?我只能访问放置了文件的Unix计算机,并且不确定是否已安装所有文件。
当前代码:
options set=SAS_HADOOP_RESTFUL=1;
options set=SAS_HADOOP_JAR_PATH=<jar path>;
options set=SAS_HADOOP_CONFIG_PATH=<config path>;
options nofmterr;
%let svr = %NRSTR('server.abc.com');
%let stng = %NRSTR('stored as parquet');
libname aaa hadoop server=&svr hdfs_tempdir='/tmp/sastmp' user = 'username'
password = pxxx schema='schema name' port 10000
DBCREATE_TABLE_OPTS=`&stng`
subprotocol=hive2;
libname xxx '/workspace/abc/xyz';
data aaa.test;
set xxx.abc.test;
run;