应用错误收集

确实有两种方法可以在亚马逊上使用hadoop - 提供你自己的集群或usint EMR。与此决策正交，您可以使用HDFS或S3作为文件系统。这不是短篇小说，但我会尝试高举所有这些选择的一些优点/缺点。
如果您需要每天运行单个/少数作业并且不需要始终使用hadoop群集，则可以使用EMR。在这种情况下，您将数据放入s3并可以完全编写流程脚本。主要缺点 - 不容易定制，使用第三方库等。在这种情况下，您还可以节省安装群集的时间。如果你想调整hadoop - 你应该安装自己的集群。
当您的数据已经在s3中或者您需要在处理后存储它时 - s3是一个不错的选择。同时 - 使用HDFS会降低性能。必须指出的是，亚马逊实例的本地存储空间很小 - 因此它变得非常昂贵，您应该保持群集运行（并支付费用），以保留此存储。
我会告诉你，如果你确实需要HDFS及其所有throuput，你确实需要在自己的硬件上拥有自己的集群。当您在亚马逊上工作时 - 最实际的做法是使用S3作为您的文件系统。

EC2与ElasticMapReduce / S3上的Hadoop

1 个答案: