如何在EMR集群中创建外部表以及如何将Amazon S3中二进制/目标文件中的元数据作为每个元数据键的单独列上传

时间:2019-02-08 12:05:54

标签: amazon-s3 amazon-emr

我想使用Amazon EMR 分析S3中存储的数百万个二进制/目标文件。 我可以使用保存在 S3存储桶中的 text / csv 文件创建emr表。但是我面临着将亚马逊的 EMR / hive 表中的数据上传至二进制/目标文件,以便我可以对其进行分析。

如果我们要使用S3 API提取数据并对其进行分析,那将花费很多时间,因为我们需要解析数百万个密钥。

我已经创建了EMR表,但是在fetcing中,数据为不可读格式。

CREATE EXTERNAL TABLE myTable (key STRING, value INT) LOCATION 's3n://<bucket name>/<folder>/';

CREATE EXTERNAL TABLE myTable (key STRING, value INT) LOCATION 's3n://<bucket name>/<folder>/';

我希望EMR表中的数据具有可读性,这样我就可以使用配置单元表的选择查询轻松地获取数据。

0 个答案:

没有答案