Apache Nutch抓取了hbase
中保存的一些数据。这些数据包含一些pdfs文件。现在我想提取这些文件。
我怎么能这样做?
答案 0 :(得分:0)
默认情况下,Hbase不了解存储的数据类型。我想你可以在HBase shell中使用 readdb 命令(http://wiki.apache.org/nutch/bin/nutch%20readdb)从网页表中提取数据。
答案 1 :(得分:0)
您可以使用nutch dump命令
以下是语法:
bin/nutch dump -outputDir /tmp/tt03 -segment crawl/crawldb/segments
示例:
example\.net
答案 2 :(得分:0)
您当然知道,已抓取的数据存储在细分中。您实际上可以使用 readseg 命令提取这些数据(例如):
bin/nutch readseg -dump /work/apache-nutch-1.12/crawl/segments/20161005134205 my_dump_dir
其中 my_dump_dir 是您的目录,将创建并包含转储。
然后在你的my_dump_dir中你会找到两个文件: dump (包含已爬网和已解析的数据 - 非编码)和 .dump.crc (我猜一些二进制)。他们使用任何文本编辑器查看 dump 并查看结构。如果需要,您也可以解析它。