应用错误收集

时间：2015-06-29 17:20:30

标签： mysql amazon-web-services amazon-s3

亚马逊AWS文档非常糟糕且完全无益。感觉很好，现在我们可以解决实际问题。

我正在使用SQL工作台连接到我的redshift集群我能够很好地连接但不能运行任何命令......

如何查询常见爬网s3数据集？

答案 0 :(得分：0)

Amazon S3中提供的Common Crawl Corpus数据集为apparently formatted as WARC files。但是，Amazon Redshift只能加载CSV文件（未压缩，GZIP或LZOP）。

因此，您需要将Common Crawl文件预处理为适当的格式，以便加载到Amazon Redshift中。这样做的一种方法是使用Amazon Elastic MapReduce（EMR）。页面上写着：

Common Crawl提供了在Amazon Elastic MapReduce上启动Hadoop作业所需的粘合代码，该代码可以针对驻留在Amazon公共数据集中的爬行语料库运行。

请注意，这将是一个相当复杂的过程（与Hadoop一样）。