如何为pig脚本自定义HbaseStorage?实际上我想在将数据加载到pig脚本之前对数据执行一些业务逻辑。它就像HbaseStorage上的自定义存储一样。
例如,我的行键具有类似于A_B_C的结构。目前,我正在我的猪脚本中传递HbaseStorage中的A_B_C键但是我想在将输入数据提供给实际的猪脚本之前执行一些逻辑,例如像A_B_C_D这样的键过滤等。怎么可能
答案 0 :(得分:0)
您可能必须最终查看HBaseStorage java类并基于此实现您自己的类。根据HBaseStorage和相关类的编写方式,这可能不同于简单(只需将HBaseStorage本身扩展并在必要时覆盖)到真正令人头痛的问题。
然后,您必须确保包含您的代码的.jar位于pig类路径中。
答案 1 :(得分:0)
我发现HbaseStorage是一个真正的痛苦,所以我编写常规的Java MR作业来查询HBase并创建自定义序列文件,然后我使用Pig和一个简单的自定义加载器。我发现这节省了大量的时间,因为序列文件可以在一天中多次重复使用以获得快速结果,而不是在Hbase中为每个Pig脚本扫描所有内容。