大数据的最佳实践?

时间:2015-10-08 13:28:20

标签: twitter-bootstrap hadoop twitter bigdata twitter4j

根据您的经验,我有以下大数据系统:

我们的主要目标是分析数十亿条每日推文,并在我们的门户网站上显示决策制定者。图表的类型包括条形图,柱形图,网络图。 到目前为止,我们的系统是这样的:

  1. 仅用于在HDFS中存储数据的Cloudera平台(CDH)
  2. Apache Flume用于从GNIP发送推文
  3. 弹性搜索和php开发图表
  4. 我想知道什么是可以产生在线可视化的最佳产品组合和大数据上的离线可视化组合?

1 个答案:

答案 0 :(得分:1)

  1. 您可以继续使用 Hadoop 进行大数据的离线处理

  2. 您可以移动 Apache Storm Apache Spark 来实时处理大数据。 Spark + HBase组合适用于数据的相对时间处理。 Spark内存数据库与HBase相结合,可以更快地实时查询大数据。看看这个article

  3. 关键要点:

    Various Hadoop tools for Batch processing Real time data processing