我的问题是理论上的,
我正在尝试为大数据处理中的mapreduce示例进行设计。
我遇到的情况需要将一对键映射到一对值。
例如,如果我们有以下文本: “工程学士学位具有5年的经验” 我试图以一种方式对“工程与经验”一词进行计数,以使每个词都分别具有一个值。
因此,根据上面给定的文本示例,我的密钥将是(Engineering,Experience),我的值将是(1,1)。
请注意,作业中两个键值之间存在关系,因此我希望它们都在一组键值中同时确定两个键是否在一个文本文件中被提及,或者仅提及一个键,或者没有提及。
请让我知道是否可以在大数据的map-reduce中实现上述情况。
答案 0 :(得分:0)
拥有"(Engineering,Experience)"
的字符串键与仅具有其中一个单词的字符串没有什么不同。
如果您想拥有更多的自定义类型,则需要对Writable
以及WritableComparable
接口进行子类化。
类似地,对于该值,您可以将整个元组放置为Text
并在以后进行解析,或者可以创建自己的可写子类来存储两个整数。
答案 1 :(得分:0)
感谢您的回答,但我认为我可以将“ Engineering Experience”用作键的字符串。