如何使用redshift查询S3公共数据集

时间:2015-06-29 17:20:30

标签: mysql amazon-web-services amazon-s3

亚马逊AWS文档非常糟糕且完全无益。感觉很好,现在我们可以解决实际问题。

我正在使用SQL工作台连接到我的redshift集群我能够很好地连接但不能运行任何命令......

如何查询常见爬网s3数据集?

1 个答案:

答案 0 :(得分:0)

Amazon S3中提供的Common Crawl Corpus数据集为apparently formatted as WARC files。但是,Amazon Redshift只能加载CSV文件(未压缩,GZIP或LZOP)。

因此,您需要将Common Crawl文件预处理为适当的格式,以便加载到Amazon Redshift中。这样做的一种方法是使用Amazon Elastic MapReduce(EMR)。页面上写着:

  

Common Crawl提供了在Amazon Elastic MapReduce上启动Hadoop作业所需的粘合代码,该代码可以针对驻留在Amazon公共数据集中的爬行语料库运行。

请注意,这将是一个相当复杂的过程(与Hadoop一样)。