应用错误收集

对于初学者，我建议坚持使用良好的预包装Hadoop发行版/沙盒。即使您想在使用Hadoop集群提供的工具之前（例如Hive等）学习如何设置Hadoop集群，也至少在开始时设置通用发行版要容易得多。

针对Hadoop的预打包沙箱将在Linux中使用。但是最有可能的是，如果您从这些沙箱开始，则无需在Linux上做很多事情就可以开始使用Hadoop。就我个人而言，我认为通过避免Windows端口上的支持和文档问题而节省的时间将极大地补偿进入Linux所需的任何额外工作，并且您至少会进入Linux领域，而Linux本身就是一个极为重要的工具。 / p>

对于预包装的解决方案，您可以尝试针对Cloudera quickstart VM或MapR quickstart VM，因为它们是使用最广泛的发行版。通过使用沙箱，您将跳过安装过程（如果您不了解所需内容，特别是如果您不熟悉Linux，则可能会很忙），然后直接使用工具。由于可以为诸如Cloudera和MapR之类的大型供应商提供良好的文档，因此在访问您想学习的工具时，您还将面临较少的问题。

请遵循供应商特定的设置准则（也在下载页面上列为入门指南），以获取有关设置沙箱的更多详细信息。

设置了沙箱后，您可以使用多种不同的方式访问Hive和Pig。您可以为Hive使用命令行界面（称为beeline）。如果您熟悉JDBC，则可以通过它访问Hive。安装Apache-Thrift以启用更广泛的访问选项，但您也可以将其保存以供以后使用。

除非您有非常特殊的用途，否则我不建议您学习Pig。如果您熟悉Java（或Scala，甚至Python，还有其他选项），请尝试编写一些Map-Reduce样式的作业，以了解有关Hadoop工作原理的更多信息。打开已随这些沙箱预先配置的Ambari（或Cloudera Manger等）界面，并查看随沙箱预先打包的工具和服务。这些是最常见的，可以用作入门的有用列表。开始学习它们（但是，即使已预先安装，也可以跳过Pig）。

一旦您熟悉了沙箱，我建议您使用Apache Nifi，它具有更易学习的曲线并具有很大的灵活性。但是您很可能必须为此设置一个新的沙箱。它也可以作为学习的良好修订练习。将其与Hadoop沙箱集成，实现一些不错的用例，您将有很好的展示经验。

在笔记本电脑中安装Hadoop，Pig和Hive

1 个答案: