我是Hadoop生态系统的新手,有一些基本的想法。请协助以下查询:
- 如果文件大小(我试图复制到HDFS的文件)非常大并且无法容纳我的Hadoop生态系统中的可用商品硬件,那么可以做些什么呢?文件是否会等到它出现空白或存在错误?
- 如何在Hadoop生产环境中提前找到或预测上述情况,我们会继续从外部来源接收文件?
- 如何将新节点添加到实时HDFS生态系统?有很多方法,但我想知道我需要改变哪些文件?
- 节点有多少块?如果我假设节点是具有存储(HDD-500 MB),RAM(1GB)和处理器(双核)的CPU。在这种情况下它是500GB / 64?假设每个块都配置为容纳64 GB RAM
- 如果我{1}将一个1TB文件转换成HDFS,该文件的哪一部分将被放置在哪个节点的哪个块中?我怎么知道这个?
- 如何在Hadoop拆分的多个文件的哪个文件中找到输入文件的哪个记录/行?
- 每个xmls配置的目的是什么? (core-site.xml,hdfs-site.xml& mapred-site.xml)。在分布式环境中,哪些文件应放在所有从属数据节点中?
- 如何知道任何读/写活动将运行多少个map和reduce作业?写操作总是有0减速器吗?
醇>
为询问一些基本问题而道歉。请建议找到所有上述查询的答案的方法。