亚马逊AWS文档非常糟糕且完全无益。感觉很好,现在我们可以解决实际问题。
我正在使用SQL工作台连接到我的redshift集群我能够很好地连接但不能运行任何命令......
如何查询常见爬网s3数据集?
答案 0 :(得分:0)
Amazon S3中提供的Common Crawl Corpus数据集为apparently formatted as WARC files。但是,Amazon Redshift只能加载CSV文件(未压缩,GZIP或LZOP)。
因此,您需要将Common Crawl文件预处理为适当的格式,以便加载到Amazon Redshift中。这样做的一种方法是使用Amazon Elastic MapReduce(EMR)。页面上写着:
Common Crawl提供了在Amazon Elastic MapReduce上启动Hadoop作业所需的粘合代码,该代码可以针对驻留在Amazon公共数据集中的爬行语料库运行。
请注意,这将是一个相当复杂的过程(与Hadoop一样)。