我有一个twitter爬虫,通过HBase本机java客户端集成到HBase。当抓取过程开始时,推文中的每条推文都会被发送到HBase表。我的问题,是集成Crawler和HBase的最佳实践吗?我很害怕在通过将推文保存到表格的同时继续爬行过程时的性能。 (我这样做是因为在将数据从crawler插入HBase后,这些推文将被Solr编入索引)
答案 0 :(得分:0)
在启动时,该表属于一个区域。写操作可以视为单线程模型。当数据写入表中时,会发生 split 。写操作会更快。你是现在可以考虑作为多线程模型,然后性能取决于客户端的吞吐量。