我是Bigdata和Haddop技术的新手。在理解架构的同时,我几乎没有问题。请帮助我理解相同的内容。
1)谁是客户端和HDFS架构?
2)如果我的文件是128 MB,那么理想情况下它应该分成2个blocak,每个64mb。但我的问题是这个文件斩波/分裂将发生的地方。是客户端吗?如果是这样,它将如何发生?因为我试图了解何时向128位文件发送到hdfs,分裂将如何发生。请帮我讲一下。
3)谁是BigData的计算器。
4)BigData有哪些缺点。
先谢谢 希瓦
答案 0 :(得分:1)
1)'客户'是用于指代项目所有者的术语,毕竟bigdata被评估用于客户的业务改进。“Hadoop架构”表示形成核心的规则和标准的集合,每个人都需要遵守。例如:在零级别构建四个支柱后,不能在下一级构建6个支柱。
2)默认块大小为64,后跟128,256。可以在xml文件中明确提到块大小。通常,分区用于在执行读/写操作时减少网络开销。因此,人们不能期望在单次发送中发送1TB数据。这里,架构可以发挥作用,我们不必担心完全理解如何和为什么Hadoop架构会照顾它。正如我们在java中知道抽象,“我们不需要知道如何完成实现的完整细节”。
3)截至目前还没有bigdata的竞争对手,Bigdata自我用来了解业务缺陷并改善业务。例如:亚马逊使用bigdata来了解用户的选择和偏好,Twitter,Facebook,Linkedin,Netflix是社交使用Bigdata的网站。
4)如上所述,Bigdata没有任何不利之处。更具体地说,Hadoop架构存在缺点,即Hadoop使用硬盘进行读/写操作,延迟很高。答案 1 :(得分:0)
1)谁是客户端和HDFS架构?
我不明白你想知道的有关HDFS客户的内容。如果我理解正确,客户端可以是某些可视化工具/报表工具(例如:Tableau)或任何其他目标,如Oracle / Hana。这取决于你想如何使用HDFS数据。没有特定的客户。
2)如果我的文件是128 MB,那么理想情况下它应该分成2个块,每个64mb。但我的问题是这个文件斩波/分裂将发生的地方。是客户端吗?如果是这样,它将如何发生?因为我试图了解何时向128位文件发送到hdfs,分裂将如何发生。请帮助我。
首先,您必须了解块大小和分割大小之间的区别。两者都是理想的不同。 块是数据的物理表示。 Split是Block中数据的逻辑表示。将创建作业启动输入拆分。基于输入splite recrd阅读器将被创建。记录读者的责任是从i / p分裂&创建实际的KV对。所有这些都将由InputFormat创建。 I / p Split对于获得完整记录非常有用。
当用户提交请求时,客户端库将接受该请求,客户端库本身将创建i / p拆分&其他类,并向资源管理器提供完整的详细信息。
更改复制因子 打开hdfs-site.xml文件。该文件通常位于Hadoop安装目录的conf /文件夹中。将以下属性更改或添加到hdfs-site.xml:
<property>
<name>dfs.replication<name>
<value>3<value>
<description>Block Replication<description>
<property>
Hadoop分布式文件系统旨在保存和管理大量数据;因此,典型的HDFS块大小明显大于传统文件系统所看到的块大小(例如,我的笔记本电脑上的文件系统使用的块大小为4 KB)。 HDFS使用块大小设置将文件分成块,然后在群集中分发这些块。例如,如果群集使用的块大小为64 MB,并且将128 MB的文本文件放入HDFS,则HDFS会将文件拆分为两个块(128 MB / 64 MB)并将两个块分配给集群中的数据节点。
更改块大小。 打开hdfs-site.xml文件。此文件通常位于Hadoop安装目录的conf /文件夹中。请在hdfs-site.xml中包含以下属性:
<property>
<name>dfs.block.size<name>
<value>134217728<value>
<description>Block size<description>
<property>
hdfs-site.xml用于配置HDFS。更改hdfs-site.xml中的dfs.block.size属性将更改放入HDFS的所有文件的默认块大小。在这种情况下,我们将dfs.block.size设置为128 MB。更改此设置不会影响当前HDFS中任何文件的块大小。在此设置生效后,它只会影响放入HDFS的文件的块大小。
3)谁是BigData的竞争者。 hadoop是由Apache opensource项目基础维护的开源。 Enterprise hadoop的主要竞争对手是hortonworks,Clouders,MapR
4)BigData有哪些缺点。 对许多小文件不好。 不适合实时数据处理。 潜在的稳定性问题 安全