我想对以下几点作出一些澄清:
HDFS如何获取数据?
是否需要从块中的某些数据库中获取数据,如果是这种情况则表示我们需要一个中央数据库。 或者,它是否直接从个别的最后一台机器获取数据,例如在这种情况下说是所有交易发生的商店系统,然后将其保存在块中?
我知道HDFS是如何工作的(谷歌搜索了很多),但只是对上述要点感到困惑。
感谢任何帮助...
谢谢, 的Pankaj
答案 0 :(得分:1)
你的问题对我来说听起来不太清楚。这取决于将数据写入HDFS的客户端。 HDFS本身不会从任何地方提取数据。您的HDFS客户端有责任从源中提取数据并将其转储到HDFS中。源可以是任何东西,从后端数据库或前端机器。
客户端从源读取数据并将其缓存到临时本地文件中。当此本地文件累积超过一个HDFS块大小的数据时,客户端在NameNode的帮助下将其写入DataNode。
因此,这取决于您从何处阅读数据。如果这不是你想要的,我很抱歉。如果是这种情况,请提供更多详细信息,我会相应地更新答案。
答案 1 :(得分:0)
您需要自己将数据加载到hdfs中。 如果您使用的是hive表,则可以使用以下查询: 蜂房> LOAD DATA [LOCAL] INPATH'数据文件路径'INTO TABLE yourTableName