我目前正在用Java编写MapReduce程序,查询此处的亚马逊元数据:http://snap.stanford.edu/data/amazon-meta.html
使用我的地图功能处理输入时,我会读取每一行,存储有关每种产品的信息。在听说输入拆分如何工作之后,是否有可能将文件拆分到其中一个产品“段落”中,破坏了我尝试分析该产品的算法?
答案 0 :(得分:0)
不应该,但是我可以看到你来自哪里。尝试“扫描仪”或其他技术。我发现了一个类似于你的问题:Hadoop Mapreduce Input Splits. Will this hurt my algorithm?