Hadoop主要用于处理非结构化或半结构化数据。我想使用Hadoop处理大量结构化数据。
虽然hadoop能够从数据库中读取(通过DBInputFormat),但它不被视为可扩展的方法,因为数据库连接的数量会受到限制。
是否有人使用hadoop从RDBMS读取数据?表现如何?它可以支持多少个节点?
由于
答案 0 :(得分:0)
您可以使用Sqoop将数据从RDBMS导入Hadoop。
Hadoop会处理非结构化数据,因为您正在将约束(创建结构化数据)推到最后。这也允许创建什么样的结构,这将定义您可以提取的信息类型。
永远不会说您无法处理结构化数据,但获得的里程数很低。 RDBMS可以高效地处理结构化数据。