注意:dba.SE上存在此问题,但没有答案,几乎没有观点。因此,我将其发布在这里,希望它会引起更多关注。
我最近的任务是将存储在各种Excel工作表和CSV文件中的大量数据迁移到结构化数据库中。要处理的数据量非常大,并且处于数TB的范围内。目的是提供一个快速的数据检索系统并提供有关数据的统计信息。
由于我在关系数据库(尤其是Postgres)方面拥有多年的经验,因此我的第一个想法是分析数据并将其迁移到Postgres DB。但是,我最近阅读了有关“大数据”的信息,而且我看到Hadoop在许多地方都被提及。我在该领域没有任何经验,因此我倾向于不使用这些框架,但是看起来这是存储和处理大量数据的标准。
花了一些时间在Google上之后,对我来说,大数据的范式到底是什么以及如何“建立Hadoop集群”仍然不完全清楚。我知道它的目的是解决从非常大的数据库中检索数据时的速度问题,但是我仍然无法理解该“数据库”的位置,即它是Hadoop本身,还是某些专有模型,是否可以是Postgres DB ,...?
我的问题是:
答案 0 :(得分:1)
从postgres(和传统的rgbd)迁移到“大数据解决方案”显然很耗时。如果您有预算,可以在公共云上获得一些帮助。例如,在亚马逊上,您有EMR解决方案,它预先打包了一些大数据解决方案。
但是在amazone上,您具有更易于使用的Redshift频谱:here some talk。
答案 1 :(得分:1)
大数据是术语。它表示数据可以来自诸如 Article , News , Media 等等,它是如此之大,这就是为什么它是 Big Data ..
Hadoop
是实现大数据的免费资源。如果您询问是否值得。.当然,如今 data 已有变得如此重要。Database
,但要取决于您如何实现大数据。可以像NoSql
一样将数据存储到Rdbms
或Postgresql
。但是您需要一些ETL
来转换数据,因为数据非常大