应用错误收集

PostgreSQL vs Hadoop用于大量数据存储和检索

时间：2018-11-09 15:29:49

标签： postgresql hadoop

注意：dba.SE上存在此问题，但没有答案，几乎没有观点。因此，我将其发布在这里，希望它会引起更多关注。

我最近的任务是将存储在各种Excel工作表和CSV文件中的大量数据迁移到结构化数据库中。要处理的数据量非常大，并且处于数TB的范围内。目的是提供一个快速的数据检索系统并提供有关数据的统计信息。

由于我在关系数据库（尤其是Postgres）方面拥有多年的经验，因此我的第一个想法是分析数据并将其迁移到Postgres DB。但是，我最近阅读了有关“大数据”的信息，而且我看到Hadoop在许多地方都被提及。我在该领域没有任何经验，因此我倾向于不使用这些框架，但是看起来这是存储和处理大量数据的标准。

花了一些时间在Google上之后，对我来说，大数据的范式到底是什么以及如何“建立Hadoop集群”仍然不完全清楚。我知道它的目的是解决从非常大的数据库中检索数据时的速度问题，但是我仍然无法理解该“数据库”的位置，即它是Hadoop本身，还是某些专有模型，是否可以是Postgres DB ，...？

我的问题是：

是否值得学习大数据范例并实现基于Hadoop的解决方案？
我可以改用结构良好的Postgres数据库吗？
如果事实证明更好，我可以将Postgres解决方案迁移到某种大数据结构吗？

2 个答案:

答案 0 :(得分：1)

从postgres（和传统的rgbd）迁移到“大数据解决方案”显然很耗时。如果您有预算，可以在公共云上获得一些帮助。例如，在亚马逊上，您有EMR解决方案，它预先打包了一些大数据解决方案。

但是在amazone上，您具有更易于使用的Redshift频谱：here some talk。

答案 1 :(得分：1)

大数据是术语。它表示数据可以来自诸如 Article ， News ， Media 等等，它是如此之大，这就是为什么它是 Big Data ..

Hadoop是实现大数据的免费资源。如果您询问是否值得。.当然，如今 data 已有变得如此重要。
大数据从许多数据中进行数据挖掘，就像我之前说的那样。.
大数据将从采矿中获取数据，您需要将其存储到Database，但要取决于您如何实现大数据。可以像NoSql一样将数据存储到Rdbms或Postgresql。但是您需要一些ETL来转换数据，因为数据非常大