嗨朋友们
我正在生成一个网络爬虫,我想知道一些关于这一点的事情,
1)我可以使用Map reduce从NET获取数据
2)我能否将获取的数据保存到HBase?
3)我能用PHP编写应用程序从HBase获取数据吗?如果是,你可以给我一个代码片段吗?我如何使用PHP添加/查看/删除HBase中的数据
答案 0 :(得分:1)
对于问题3,您可以从PHP与Hbase进行交互,但您需要通过Thrift界面进行交互。有关详细信息,请参阅this blog post。希望这有帮助
答案 1 :(得分:1)
对于你的问题,是的,一切都可以完成。你如何处理它取决于你想要达到的目标。
1)您的主控制器需要对任务进行分区。您可能会维护某种要爬网的地址列表,可能运行每次读取列表的顺序mapreduce任务,在可以执行爬网的映射器之间拆分列表,并直接写入hbase或其他中介。他们也可能输出生成的URL以便接下来进行爬网,然后在reduce阶段将其过滤为uniques,reduce将输出接下来要爬行的事物列表。你需要维护一个最近被抓取的东西的列表并过滤掉它,但这不是特定于MR / Hbase。
2)您可以使用table output format将输出发送到hbase。您也可以使用HTable创建HBase连接并直接在映射器中写入。
3)正如TheDeveloper所说,是的,有节俭。他的联系很好。
答案 2 :(得分:1)
可以使用Stargate通过REST轻松完成。