映射一系列warc.gz文件,EMR

时间:2016-07-07 15:51:52

标签: python hadoop elastic-map-reduce

我一直在AWS / EMR中运行一个流式传输步骤,使用Python编写的映射器和缩减器来映射Common Crawl中的一些档案以进行情感分析。

我正在从较旧的常见爬网textData格式转换为较新的warc.gz格式,我需要知道如何为我的EMR输入指定一系列warc.gz文件。

例如:

在旧格式中,我可以指定textData文件的输入范围:

s3://aws-publicdatasets/common-crawl/parse-output/segment/1341690165636/textData-000[0-9][0-9]

但新格式如下:

第一个文件:

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00000-ip-10-236-182-209.ec2.internal.warc.gz

第二档:

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00001-ip-10-236-182-209.ec2.internal.warc.gz

如何指定映射一系列warc.gz文件?

2 个答案:

答案 0 :(得分:0)

我很确定您可以使用之前使用的相同方法。要只读取您将使用的两个文件:

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-0000[0-1]-ip-10-236-182-209.ec2.internal.warc.gz

此外,由于这些路径比前一个路径更丰富,因此您还可以使用其他方法来指定要处理的数据集。

CC-MAIN-2016-07 is CC-MAIN-YYYY-ww - 能够指定一组要处理的年份或周数。

CC-MAIN-20160205195359 is CC-MAIN-YYYYMMDDHHmmss - 您可以选择日期或时间范围。

答案 1 :(得分:0)

您可以通过

下载2016年7月的warc文件列表
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/warc.paths.gz
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wat.paths.gz
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wet.paths.gz

用于通过浏览器访问,将其附加到文件中提到的路径

commoncrawl.s3.amazonaws.com/

在您通过s3访问的情况下,请尝试将其附加到路径

s3://commoncrawl/