使用S3数据源的Apache Drill速度非常慢?

时间:2017-07-04 14:29:35

标签: amazon-web-services amazon-s3 apache-drill

我正在尝试使用带有S3存储桶的Apache Drill,但速度非常慢。

我有大约20,000个JSON文件。我可以在几秒钟内从本地获得结果,例如:

> select count(*) from dfs.`/path/to/my/files/*.json`;

在不到2秒后返回。

尝试在S3存储桶中对完全相同的文件运行完全相同的查询,即使在10分钟后也无法完成:

> select count(*) from s3.`releases`;

这是为什么?我认为Drill的重点在于它在大数据集上的速度很快。

我的S3连接本身没问题,例如SHOW files在合理的时间内向我展示了我的可用文件夹,并且我的网络连接也没有任何问题。

1 个答案:

答案 0 :(得分:2)

它不是您问题的直接答案,但如果您想查询s3存储桶并且您拥有大型数据集,则应查看athena