Question

Apache Nutch抓取了hbase中保存的一些数据。这些数据包含一些pdfs文件。现在我想提取这些文件。

我怎么能这样做？

Answer 1

默认情况下，Hbase不了解存储的数据类型。我想你可以在HBase shell中使用 readdb 命令（http://wiki.apache.org/nutch/bin/nutch%20readdb）从网页表中提取数据。

Answer 2

您可以使用nutch dump命令

以下是语法：

bin/nutch dump -outputDir /tmp/tt03 -segment crawl/crawldb/segments

示例：

example\.net

Answer 3

您当然知道，已抓取的数据存储在细分中。您实际上可以使用 readseg 命令提取这些数据（例如）：

bin/nutch readseg -dump /work/apache-nutch-1.12/crawl/segments/20161005134205 my_dump_dir

其中 my_dump_dir 是您的目录，将创建并包含转储。

然后在你的my_dump_dir中你会找到两个文件： dump （包含已爬网和已解析的数据 - 非编码）和 .dump.crc （我猜一些二进制）。他们使用任何文本编辑器查看 dump 并查看结构。如果需要，您也可以解析它。