应用错误收集

集成Crawler Twitter和HBase

时间：2015-06-23 08:08:07

标签： hadoop solr web-crawler hbase

我有一个twitter爬虫，通过HBase本机java客户端集成到HBase。当抓取过程开始时，推文中的每条推文都会被发送到HBase表。我的问题，是集成Crawler和HBase的最佳实践吗？我很害怕在通过将推文保存到表格的同时继续爬行过程时的性能。（我这样做是因为在将数据从crawler插入HBase后，这些推文将被Solr编入索引）

1 个答案:

答案 0 :(得分：0)

在启动时，该表属于一个区域。写操作可以视为单线程模型。当数据写入表中时，会发生 split 。写操作会更快。你是现在可以考虑作为多线程模型，然后性能取决于客户端的吞吐量。

集成推文按钮
使用solr和集成nutch和solr时出错（HTTP ERROR 500）
整合facebook和twitter
集成Django和Twitter Bootstrap
在JBoss应用程序中集成jersey库
将Apache Nutch与Cloudera Hbase和Solr集成
将Pig与Hbase集成
与Twitter集成
集成Crawler Twitter和HBase

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？