Question

我是Bigdata和Haddop技术的新手。在理解架构的同时，我几乎没有问题。请帮助我理解相同的内容。

1）谁是客户端和HDFS架构？

2）如果我的文件是128 MB，那么理想情况下它应该分成2个blocak，每个64mb。但我的问题是这个文件斩波/分裂将发生的地方。是客户端吗？如果是这样，它将如何发生？因为我试图了解何时向128位文件发送到hdfs，分裂将如何发生。请帮我讲一下。

3）谁是BigData的计算器。

4）BigData有哪些缺点。

先谢谢希瓦

Answer 1

1）'客户'是用于指代项目所有者的术语，毕竟bigdata被评估用于客户的业务改进。“Hadoop架构”表示形成核心的规则和标准的集合，每个人都需要遵守。例如：在零级别构建四个支柱后，不能在下一级构建6个支柱。

2）默认块大小为64，后跟128,256。可以在xml文件中明确提到块大小。通常，分区用于在执行读/写操作时减少网络开销。因此，人们不能期望在单次发送中发送1TB数据。这里，架构可以发挥作用，我们不必担心完全理解如何和为什么Hadoop架构会照顾它。正如我们在java中知道抽象，“我们不需要知道如何完成实现的完整细节”。

3）截至目前还没有bigdata的竞争对手，Bigdata自我用来了解业务缺陷并改善业务。例如：亚马逊使用bigdata来了解用户的选择和偏好，Twitter，Facebook，Linkedin，Netflix是社交使用Bigdata的网站。

4）如上所述，Bigdata没有任何不利之处。更具体地说，Hadoop架构存在缺点，即Hadoop使用硬盘进行读/写操作，延迟很高。

Answer 2

1）谁是客户端和HDFS架构？

我不明白你想知道的有关HDFS客户的内容。如果我理解正确，客户端可以是某些可视化工具/报表工具（例如：Tableau）或任何其他目标，如Oracle / Hana。这取决于你想如何使用HDFS数据。没有特定的客户。

2）如果我的文件是128 MB，那么理想情况下它应该分成2个块，每个64mb。但我的问题是这个文件斩波/分裂将发生的地方。是客户端吗？如果是这样，它将如何发生？因为我试图了解何时向128位文件发送到hdfs，分裂将如何发生。请帮助我。

首先，您必须了解块大小和分割大小之间的区别。两者都是理想的不同。块是数据的物理表示。 Split是Block中数据的逻辑表示。将创建作业启动输入拆分。基于输入splite recrd阅读器将被创建。记录读者的责任是从i / p分裂＆amp;创建实际的KV对。所有这些都将由InputFormat创建。 I / p Split对于获得完整记录非常有用。

当用户提交请求时，客户端库将接受该请求，客户端库本身将创建i / p拆分＆amp;其他类，并向资源管理器提供完整的详细信息。

更改复制因子 打开hdfs-site.xml文件。该文件通常位于Hadoop安装目录的conf /文件夹中。将以下属性更改或添加到hdfs-site.xml：

<property> 
<name>dfs.replication<name> 
<value>3<value> 
<description>Block Replication<description> 
<property>

Hadoop分布式文件系统旨在保存和管理大量数据;因此，典型的HDFS块大小明显大于传统文件系统所看到的块大小（例如，我的笔记本电脑上的文件系统使用的块大小为4 KB）。 HDFS使用块大小设置将文件分成块，然后在群集中分发这些块。例如，如果群集使用的块大小为64 MB，并且将128 MB的文本文件放入HDFS，则HDFS会将文件拆分为两个块（128 MB / 64 MB）并将两个块分配给集群中的数据节点。

更改块大小。 打开hdfs-site.xml文件。此文件通常位于Hadoop安装目录的conf /文件夹中。请在hdfs-site.xml中包含以下属性：

 <property> 
    <name>dfs.block.size<name> 
    <value>134217728<value> 
    <description>Block size<description> 
    <property>

hdfs-site.xml用于配置HDFS。更改hdfs-site.xml中的dfs.block.size属性将更改放入HDFS的所有文件的默认块大小。在这种情况下，我们将dfs.block.size设置为128 MB。更改此设置不会影响当前HDFS中任何文件的块大小。在此设置生效后，它只会影响放入HDFS的文件的块大小。

3）谁是BigData的竞争者。 hadoop是由Apache opensource项目基础维护的开源。 Enterprise hadoop的主要竞争对手是hortonworks，Clouders，MapR

4）BigData有哪些缺点。 对许多小文件不好。不适合实时数据处理。潜在的稳定性问题安全

BigData - Hadoop（文件系统）

2 个答案: