我在博客中看过它并说明了
Hadoop是以批量处理为中心的理想选择,用于发现,探索和分析大量不适合表格的多结构数据,不适合实时操作。
所以,任何人都可以通过对此进行更好的解释来帮助我,就像它不适合实时操作一样。 TQ
答案 0 :(得分:3)
对于实时处理,你有HBase,它是Hadoop生态系统的一部分:
<强> http://hbase.apache.org/ 强>
Apache HBase是Hadoop数据库,是一个分布式,可扩展的大型数据库 数据存储。
我何时使用Apache HBase?
当您需要随机,实时读/写访问权限时,请使用Apache HBase 你的大数据。该项目的目标是托管非常大的表 - 数十亿行数百万列 - 在商品硬件集群上。 Apache HBase是一个开源的,分布式的, 版本化的非关系数据库模仿Google的Bigtable:A Chang等人的结构化数据分布式存储系统。就像 Bigtable利用了Google提供的分布式数据存储 文件系统,Apache HBase提供类似Bigtable的功能 Hadoop和HDFS。
功能强>
- 线性和模块化可扩展性。
- 列表项
- 严格一致的读写。
- 表格的自动和可配置分片
- RegionServers之间的自动故障转移支持。
- 使用Apache HBase表支持Hadoop MapReduce作业的便捷基类。
- 易于使用Java API进行客户端访问。
- 阻止缓存和布隆过滤器以进行实时查询。
- 通过服务器端过滤器
查询谓词下推- Thrift网关和支持XML,Protobuf和二进制数据编码选项的REST-ful Web服务
- 可扩展的基于jruby的(JIRB)外壳
- 支持通过Hadoop指标子系统将指标导出到文件或Ganglia;或通过JMX
它还支持原子计数器,这是HBase最强大的一点,可以帮助您减少大型分析工作的需要(使用仔细和计划的行键和模式设计)。
答案 1 :(得分:2)