应用错误收集

DBInputFormat多个记录处理

时间：2013-04-01 14:09:09

标签： database hadoop

当我们使用Hadoop连接到像MYSQL这样的RDBMS时，我们通常会从DB获取一条记录到用户定义的类中，该类扩展了DBWritable和Writable。如果我们的SQL查询生成N条记录作为输出，那么将记录读取到用户定义的类中的行为将完成N次。有没有一种方法可以让我同时在映射器中获得更多的记录，而不是每次都有1条记录？

1 个答案:

答案 0 :(得分：1)

如果我理解正确，您认为Hadoop会引发N SELECT个陈述。事实并非如此。正如您在DBInputFormat's source中所看到的，它根据Hadoop认为合适的内容创建了大量行。

显然，每个映射器都必须执行一个查询来获取一些数据才能进行处理，并且它可能会重复执行，但这仍然无法接近表中的行数。

但是，如果性能下降，您可能最好将数据转储到HDFS / Hive并从那里进行处理。

Hadoop中带有DBInputFormat的MultipleInputs
在MYSQL的情况下，DBInputFormat如何工作？
DBInputFormat多个记录处理
Hadoop MapReduce DBInputFormat和DBOutputFormat
hadoop - DBInputFormat在配置对象时导致错误
在Cassandra中一次插入多个记录
awk - 在多个文件中查找重复记录
按顺序将后缀粘贴到多个记录 - laravel
在DynamoDB中更新多个记录
使用Shell按字母顺序对多行记录进行排序

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？