我读过的所有论文都建议真实世界的mapreduce工作倾向于在相对较小的数据集大小上运行(主要是仅映射,对于绝大多数作业,往往在KB-16GB上运行)。如果在生产世界工作的任何人都可以谈论小数据集如何以及为什么会出现这种情况,我会更好地理解。对于小数据集(< 128MB),文件是否往往是碎片或连续的,因为它对分裂和产生的地图任务的数量有一些影响?如果hadoop让mapreduce只在一段文件上运行?
非常感谢任何指针。
答案 0 :(得分:0)
通常使用小数据来快速检查逻辑/代码是否足够好。评估必须一次又一次地进行,直到获得良好的解决方案。
我在生产中工作,我们使用小数据进行单元测试(MB的顺序),我们有大小为10-30 gigs的样本数据集,我们将其用于开发端的集成测试。但考虑到prod服务器处理的实际数据(大约是太字节),这个方法太小了。与prod环境相比,开发环境的容量较低,因此我们不能指望数TB的数据在其上平稳运行......加上耗时,因为必须为每个版本执行。
转向技术论文:作者需要真实数据:这也倾向于他们试图解决的特定用例。很难获得专注于他们问题的庞大数据集(10-100演出)。我看过他们使用大量数据集的文章很少,但那些属于大公司并可以轻松获取数据的研究人员。