Hadoop Mapreduce输入拆分。这会伤害我的算法吗?

时间:2018-03-25 00:53:32

标签: java mapreduce

我目前正在用Java编写MapReduce程序,查询此处的亚马逊元数据:http://snap.stanford.edu/data/amazon-meta.html

使用我的地图功能处理输入时,我会读取每一行,存储有关每种产品的信息。在听说输入拆分如何工作之后,是否有可能将文件拆分到其中一个产品“段落”中,破坏了我尝试分析该产品的算法?

1 个答案:

答案 0 :(得分:0)

不应该,但是我可以看到你来自哪里。尝试“扫描仪”或其他技术。我发现了一个类似于你的问题:Hadoop Mapreduce Input Splits. Will this hurt my algorithm?