我已经看过了文件here,但我承认我觉得它很缺乏。我想知道是否有人可以给我收集关于将Python UDF合并到Pig中的示例。特别是
FILTER
操作需要将结果解析为布尔值。如果我没有最新版本,我会永远诅咒返回1
或0
并使用FILTER alias BY py_udf.f(field) > 0
吗?Algebraic
,Accumulator
和Filter
接口吗?答案 0 :(得分:2)
Python UDF非常有限。您不能使用代数或累加器接口,也不能在Python中编写LoadFunc。对于比地图操作更复杂的任何事情,您可能需要求助于Java UDF。
也就是说,可以在http://ragrawal.wordpress.com/2013/02/24/on-writing-python-udf-for-pig-a-perspective/找到具有动态outputSchema的更复杂的Python UDF。这可能对您没有帮助,但它可以让您更好地理解Python UDF可以做什么。
答案 1 :(得分:0)
这可能无法解答您的大多数具体问题,但this blog post和链接代码包含几个使用Pig with Python的好例子,并且包括Store / Load的使用以及它们与Python的交互。