我有来自不同来源的产品数据。
我想将与产品相关的信息放在一个地方。
例如,我想将来自所有来源的与Iphone-5相关的信息放到一个地方。
这是问题,所有来源都没有相同的数据。例如,对于相同的产品,他们有不同的名称,有些会有颜色的名称,但有些不会。
示例数据:
Brand | Product Name | Source | Information
Dell | Dell inspriron 15R 5050(Core i5/4gb/500/GB/Dos | Rev_Src| Very good product.
Dell | Dell inspriron 15R 5050, color: black/Blue | Spc_Src| Ram | 4gb DDR3, Proce : 15 etc
Dell | Dell inspriron 15r 5050 in black color | Stk_SRC| Available in India
DEll | Window 7 with Dell inspiron 15r 5050 4gb ram |usr_src | good performance
就像我们有更多产品的数据一样,
输出, 我想要像
这样的信息Brand| Product | information
Dell | Dell inspiron 15 r 5050 | {Rev_Src : very good product, Rev_Src : Ram | 4 gb..., Stk_Src : available, Usr_Src : good performance}
问题:所有来源的产品名称格式不同
我正在寻找解决方案,请问map-reduce帮助吗?
如果是,那么我应该使用数据存储区或Hadoop使用Google App Engine(map reduce lib)。
注意:我正在开发基于Google App Engine的应用程序。