标签: google-app-engine hadoop mapreduce
我正在尝试处理500万到1000万订单的大量数据。
我在GoogleAppEngine / Java中运行Mapper,任务率为100 / s,存储桶大小为100,并启用了结算功能。
在地图迭代期间读取和写入数据存储区会在很大程度上影响整体速度。因此,如果我可以读取/写入除简单计数器之外的变量的字符串和数组,这可以在很大程度上加快速度。
背景:我正在尝试针对多个文本字段重复数据删除大数据。所以基本上我必须运行N个映射作业并与其余数据进行比较。