我需要做一些从字符串到整数id的映射,我正在考虑做一个UDF函数并传递这个字符串抛出它。为此,我需要一个映射器。
如何将映射器阻止为1?
感谢您的帮助
答案 0 :(得分:0)
我理解你要做的是什么,但你的基于UDF的方法不会很好地扩展,因为string-to-id表必须驻留在内存中。通过使用map-reduce作业将字符串从映射器传递到单个reducer,您可以更轻松地完成它。 reducer实例只保留一个递增计数器,用于将传入reduce方法的所有字符串(所有相同的字符串)与计数器的下一个整数值相关联。
也许其他人知道如何限制输入格式以生成简单的拆分(以获得单个映射器)。