PostgreSQL vs Hadoop用于大量数据存储和检索

时间:2018-11-09 15:29:49

标签: postgresql hadoop

注意:dba.SE上存在此问题,但没有答案,几乎没有观点。因此,我将其发布在这里,希望它会引起更多关注。


我最近的任务是将存储在各种Excel工作表和CSV文件中的大量数据迁移到结构化数据库中。要处理的数据量非常大,并且处于数TB的范围内。目的是提供一个快速的数据检索系统并提供有关数据的统计信息。

由于我在关系数据库(尤其是Postgres)方面拥有多年的经验,因此我的第一个想法是分析数据并将其迁移到Postgres DB。但是,我最近阅读了有关“大数据”的信息,而且我看到Hadoop在许多地方都被提及。我在该领域没有任何经验,因此我倾向于不使用这些框架,但是看起来这是存储和处理大量数据的标准。

花了一些时间在Google上之后,对我来说,大数据的范式到底是什么以及如何“建立Hadoop集群”仍然不完全清楚。我知道它的目的是解决从非常大的数据库中检索数据时的速度问题,但是我仍然无法理解该“数据库”的位置,即它是Hadoop本身,还是某些专有模型,是否可以是Postgres DB ,...?

我的问题是:

  • 是否值得学习大数据范例并实现基于Hadoop的解决方案?
  • 我可以改用结构良好的Postgres数据库吗?
  • 如果事实证明更好,我可以将Postgres解决方案迁移到某种大数据结构吗?

2 个答案:

答案 0 :(得分:1)

从postgres(和传统的rgbd)迁移到“大数据解决方案”显然很耗时。如果您有预算,可以在公共云上获得一些帮助。例如,在亚马逊上,您有EMR解决方案,它预先打包了一些大数据解决方案。

但是在amazone上,您具有更易于使用的Redshift频谱:here some talk

答案 1 :(得分:1)

大数据是术语。它表示数据可以来自诸如 Article News Media 等等,它是如此之大,这就是为什么它是 Big Data ..

  1. Hadoop是实现大数据的免费资源。如果您询问是否值得。.当然,如今 data 已有变得如此重要。
  2. 大数据从许多数据中进行数据挖掘,就像我之前说的那样。.
  3. 大数据将从采矿中获取数据,您需要将其存储到Database,但要取决于您如何实现大数据。可以像NoSql一样将数据存储到RdbmsPostgresql。但是您需要一些ETL来转换数据,因为数据非常大