使用Java和Mapreduce在Java中添加/查看/删除HBase中的数据?

时间:2010-11-14 00:47:19

标签: java php mapreduce hbase

嗨朋友们 我正在生成一个网络爬虫,我想知道一些关于这一点的事情,
1)我可以使用Map reduce从NET获取数据 2)我能否将获取的数据保存到HBase?
3)我能用PHP编写应用程序从HBase获取数据吗?如果是,你可以给我一个代码片段吗?我如何使用PHP添加/查看/删除HBase中的数据

3 个答案:

答案 0 :(得分:1)

对于问题3,您可以从PHP与Hbase进行交互,但您需要通过Thrift界面进行交互。有关详细信息,请参阅this blog post。希望这有帮助

答案 1 :(得分:1)

对于你的问题,是的,一切都可以完成。你如何处理它取决于你想要达到的目标。

1)您的主控制器需要对任务进行分区。您可能会维护某种要爬网的地址列表,可能运行每次读取列表的顺序mapreduce任务,在可以执行爬网的映射器之间拆分列表,并直接写入hbase或其他中介。他们也可能输出生成的URL以便接下来进行爬网,然后在reduce阶段将其过滤为uniques,reduce将输出接下来要爬行的事物列表。你需要维护一个最近被抓取的东西的列表并过滤掉它,但这不是特定于MR / Hbase。

2)您可以使用table output format将输出发送到hbase。您也可以使用HTable创建HBase连接并直接在映射器中写入。

3)正如TheDeveloper所说,是的,有节俭。他的联系很好。

答案 2 :(得分:1)

可以使用Stargate通过REST轻松完成。