我想使用Amazon EMR 分析S3中存储的数百万个二进制/目标文件。 我可以使用保存在 S3存储桶中的 text / csv 文件创建emr表。但是我面临着将亚马逊的 EMR / hive 表中的数据上传至二进制/目标文件,以便我可以对其进行分析。
如果我们要使用S3 API提取数据并对其进行分析,那将花费很多时间,因为我们需要解析数百万个密钥。
我已经创建了EMR表,但是在fetcing中,数据为不可读格式。
CREATE EXTERNAL TABLE myTable (key STRING, value INT) LOCATION 's3n://<bucket name>/<folder>/';
CREATE EXTERNAL TABLE myTable (key STRING, value INT) LOCATION 's3n://<bucket name>/<folder>/';
我希望EMR表中的数据具有可读性,这样我就可以使用配置单元表的选择查询轻松地获取数据。