我想将mysql与hadoop中的项目集成。我搜索了很多不同的方法,有两种方法:实时使用“myso applier for hadoop”和“apache sqoop”用于非实时用途。
我发现Gora也有这种能力,但我找不到任何关于如何做的信息
Gora是真实的吗? gora和mysql applier或sqoop有什么区别?
对于hadoop和mysql的集成,是否需要任何nosql db作为接口?
答案 0 :(得分:0)
此时由于某些问题,Gora的SQL模块被禁用。它不能满足您的需求:(待机......将来会再次启用。
无论如何,关于强罗的一些解释:
Gora是一个对象映射(不是特定的关系)。我们可以说,在SQL模块重新启动之前,它专注于NoSQL ......
我发现Gora是一个很好的工具,可以在后端使用NoSQL,并能够以结构化格式获取数据作为对象。
是不是实时? gora和mysql applier或sqoop有什么区别?
是的,但我想这不是你在想什么。它不是一个实时自动提取工具,它不是一个自动插入工具,它不是解析器和插入,不是过滤器,不是...
它是Hadoop和可配置数据存储之间的一个层(想想像Hibernate这样的东西)。
对于hadoop和mysql的集成,是否需要任何nosql db作为接口?
将它与Hadoop集成就像配置Hadoop以使用GoraMapper
一样简单。您将获得一个带有对象的地图(从您配置的NoSQL商店映射)。
很快将与Pig和Cascading整合,我认为:)
我的建议是:如果你想读/读MySQL,请看一下Pig和Hive,虽然它们不是"实时" (你的意思是在MySQL中插入一行后立即写入HDFS吗?)。
我希望这会有所帮助。
答案 1 :(得分:0)
您是否尝试将MySQL实例中的数据写入HDFS?您是否希望写入HDFS以使数据可用于其他Hadoop实用程序?在这种情况下,您可能希望数据采用某种兼容格式,如Text,SequenceFile,ORC,Parquet等......
您是否尝试通过MySQL查询并希望它在HDFS中查询数据?
我是InfiniDB的架构师
如果您正在寻找扩展数据并希望它在HDFS中并希望在HDFS之上运行的MySQL兼容数据库,那么请查看InfiniDB。
http://infinidb.co/
我们是MySQL的柱状MPP数据库引擎,可以在我们编写IDB文件(我们优化的文件类型)的HDFS上。然后,您可以使用MySQL查询对数据执行分析样式搜索,并获得集群中的性能(甚至单个机器也可以获得性能提升)。您还可以使用sqoop与InfiniDB数据库中的数据进行交互,以提供Hadoop生态系统的交互。