如何根据属性对产品进行分组?

时间:2012-10-11 17:11:07

标签: python database google-app-engine hadoop google-cloud-datastore

我有来自不同来源的产品数据。

我想将与产品相关的信息放在一个地方。

例如,我想将来自所有来源的与Iphone-5相关的信息放到一个地方。

这是问题,所有来源都没有相同的数据。例如,对于相同的产品,他们有不同的名称,有些会有颜色的名称,但有些不会。

示例数据:

Brand     |  Product Name                                   | Source | Information
Dell      |  Dell inspriron 15R 5050(Core i5/4gb/500/GB/Dos | Rev_Src| Very good product.
Dell      |  Dell inspriron 15R 5050, color: black/Blue     | Spc_Src| Ram | 4gb DDR3, Proce : 15 etc
Dell      | Dell inspriron 15r 5050 in  black color          | Stk_SRC| Available in India
DEll      | Window 7 with Dell inspiron 15r 5050 4gb ram    |usr_src | good performance

就像我们有更多产品的数据一样,

输出, 我想要像

这样的信息
Brand| Product                 | information
Dell | Dell inspiron 15 r 5050 | {Rev_Src : very good product, Rev_Src : Ram | 4 gb..., Stk_Src : available, Usr_Src : good performance}

问题:所有来源的产品名称格式不同

我正在寻找解决方案,请问map-reduce帮助吗?

如果是,那么我应该使用数据存储区或Hadoop使用Google App Engine(map reduce lib)。

注意:我正在开发基于Google App Engine的应用程序。

0 个答案:

没有答案