我是一名经验丰富的LAMP开发人员,在php,nginx,haproxy,redis,mongodb和aws服务方面拥有不错的经验。每当大数据需求出现在桌面上时,我都会使用aws web服务,并且最近开始阅读大数据,希望自己使用该技术,而不是使用托管服务进行大数据处理,流处理等。
然而,与学习LAMP不同,并且由于用例的性质,很难为新手找到好的资源。特别适合那些曾经使用Java生态系统的人。 (据我所知,Java软件几乎涵盖了流行的大数据堆栈)。在讨论大数据时,下面的软件列表几乎随处可见,但是很难掌握每个软件的概念,每个项目主页上的描述都很模糊。
例如" Cassandra",表面上它是一个存储时间序列数据的好数据库,但是当阅读更多关于分析的信息时,其他堆栈会出现,hadoop,pig,zookeeper等。
简而言之,这些软件的作用是什么?在大数据的背景下,这些项目中的一些共享相同的方面,为什么它们共存呢?什么是优势?什么时候用?
答案 0 :(得分:2)
至于hadoop,您必须明白,Hadoop可能意味着两件事,具体取决于具体情况。有点像“Linux”一词,如果您熟悉它。
Cassandra也可能属于第二类,因为"Hadoop integration was added way back in version 0.6 of Cassandra"。
要更好地了解整个生态系统,您必须understand how this is all structured:
从下到上:
除此之外,我们还为整个生态系统提供管理工具。管理服务器,管理任务执行顺序(作业调度)等。这就是Kafka和Zookeeper所属的地方。
¹我目前不了解HBase与ORC文件或Parquet之间的关系。