我正在使用apache nutch将数据存储在使用hdfs作为其文件系统的hbase中。我想知道它存储在hbase等中的文件。如何从hbase读取数据,例如一些pdf存储在hbase中。我想读它。我将如何做到。
请指导我?
答案 0 :(得分:1)
网页和文档存储为一行。如果你知道你的文档链接,你可以在hbase shell或其他工具(hive pig等)上获取它.Nutch将URL存储为反向URL。
E.g。 “http://bar.foo.com:8983/to/index.html?a=b”变为“com.foo.bar:8983:http/to/index.html?a=b”。
有关Hbase Shell的信息http://wiki.apache.org/hadoop/Hbase/Shell