Pig通过一组键查找外部记录

时间:2013-07-10 19:18:09

标签: hadoop mapreduce apache-pig

我在数据库系统中有数据,由于几个原因我无法使用LOAD语句。我需要Pig通过密钥(标识符)查找此数据,但是如果我实现Java UDF,我会担心逐个密钥查找的性能。基本上,如果我的关系上有10,000个条目,我想以某种方式以500个密钥的形式查找这些数据。 Pig是否提供了一个接口,允许我调用一个java方法,该方法将接受一组键并返回一组(包或地图)的答案,这些答案可以加入或以某种方式分配给Pig关系中的元组?

提前感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

一些建议:

  • 你能编写你的UDF以期望一包标识符在一个批次中查询 - 那么你只需要写猪就可以将10,000个标识符划分为多个批次(袋子 - 虽然我不是确定这是多么“简单”),然后是后续的代码以展平和重新加入UDF输出
  • 使用MAPREDUCE关键字,并在映射器实现中执行批量查询