如何通过nutch查看存储在hbase中的hbase数据

时间:2014-09-22 11:29:06

标签: hadoop hbase hdfs nutch

我正在使用apache nutch将数据存储在使用hdfs作为其文件系统的hbase中。我想知道它存储在hbase等中的文件。如何从hbase读取数据,例如一些pdf存储在hbase中。我想读它。我将如何做到。

请指导我?

1 个答案:

答案 0 :(得分:1)

网页和文档存储为一行。如果你知道你的文档链接,你可以在hbase shell或其他工具(hive pig等)上获取它.Nutch将URL存储为反向URL。

E.g。 “http://bar.foo.com:8983/to/index.html?a=b”变为“com.foo.bar:8983:http/to/index.html?a=b”。

有关Hbase Shell的信息http://wiki.apache.org/hadoop/Hbase/Shell