应用错误收集

Hadoop如何获取未存储在HDFS上的输入数据？

时间：2015-06-25 08:32:42

标签： java hadoop hdfs nosql

我正在尝试将我的大脑包裹在Hadoop周围并阅读this excellent tutorial并仔细阅读official Hadoop docs。但是，在这些文献中，我找不到一些简单的解释：

在所有人为设计的“ Hello World！”（字数统计）介绍性MR示例中，输入数据直接存储在文本文件中。然而，对我而言，感觉感觉像这样在现实世界中很少会出现这种情况。我想想象实际上，输入数据将存在于大型数据存储中，如关系数据库，Mongo，Cassandra，或者只能通过REST API等获得。

所以我问：在现实世界中，Hadoop如何获取其输入数据？我确实看到有Sqoop和Flume这样的项目，我想知道是否这些框架的重点是简单地将数据输入到HDFS上以运行MR作业。

1 个答案:

答案 0 :(得分：5)

实际上，Real world应用程序需要HDFS，原因有很多。

支持Map Reduce工作负载和可伸缩性的极高带宽。

数据可靠性和容错性。由于复制和分布式性质。关键数据系统必需。

灵活性 - 您无需预先处理数据以将其存储在HDFS中。

Hadoop旨在编写一次并阅读许多概念。通常用于摄取的Kafka，Flume和Sqoop本身非常容错，并且为HDFS的数据摄取提供高带宽。有时需要使用GB中的数据从每分钟数千个源中摄取数据。为此，需要这些工具以及容错存储系统-HDFS。

相关问题

Hadoop如何执行输入拆分？

HDFS复制 - 存储数据

如何对存储在Hive中的数据执行滞后/超前操作？

输入数据最初存储在哪里？

如何验证存储在Hadoop中的数据？

如何存储HDFS块中的数据？

Hadoop如何获取未存储在HDFS上的输入数据？

数据存储在HDFS中的哪个位置？有没有办法改变它存储的位置？

如何将数据划分为Hadoop中的输入拆分

Hadoop复制因子是3.存储了多少数据？

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？