应用错误收集

我有一个包含不同数据类型的列的表（如：ProductId，Name，size，color，class，dept等列），因为并非所有列都是数字的，我如何将类似的产品聚合在一起。数据位于Netezza，为了快速处理，我想在DB端进行，因为数据量很大（大约200万行）。

我试图在R中实现Gower的相似性，但这需要花费很多时间。我可以在netezza端使用UDF吗？

dput（头（PROD））


结构（列表（Product_key = c（＆＃34; 136220083＆＃34;，＆＃34; 134520094＆＃34;，＆＃34; 137520230＆＃34;，   ＆＃34; 133420231＆＃34;，＆＃34; 137420204＆＃34;，＆＃34; 136520284＆＃34;），SRO_score = c（2,2,2,3,3，   1），PRDF_SKU_NAME = c（＆＃34; 1496533＆＃34;，＆＃34; 1496534＆＃34;，＆＃34; 1496537＆＃34;，＆＃34; 1496540＆＃34;，   ＆＃34; 1496541＆＃34;，＆＃34; 1496542＆＃34;），ATTRIB_VAL1 = c（＆＃34; Champion Canvas＆＃34;，＆＃34;冠军   Canvas＆＃34;，＆＃34; Champion Canvas＆＃34;，＆＃34; Champion Canvas＆＃34;，＆＃34; Champion Canvas＆＃34;，   ＆＃34; Champion Canvas＆＃34;），ATTRIB_VAL2 = c（＆＃34; Navy Canvas＆＃34;，＆＃34; Navy Canvas＆＃34;，   ＆＃34; Red＆＃34;，＆＃34; Red＆＃34;，＆＃34; Red＆＃34;，＆＃34; Red＆＃34;），ATTRIB_VAL3 = c（＆＃34; 9.5W＆＃34; ，＆＃34; 10W＆＃34;，＆＃34; 7W＆＃34;，   ＆＃34; 8.5W＆＃34;，＆＃34; 9W＆＃34;，＆＃34; 9.5W＆＃34;），ATTRIB_VAL4 = c（＆＃34; Keds＆＃34;，＆＃34; Keds＆＃34 ;，＆＃34; Keds＆＃34;，   ＆＃34; Keds＆＃34;，＆＃34; Keds＆＃34;，＆＃34; Keds＆＃34;），ATTRIB_VAL5 = c（＆＃34; VULCANIZED FOOTWEAR＆＃34;，   ＆＃34;硫化鞋＃34;，＆＃34;硫化鞋＃34;，＆＃34;硫化鞋＃34;   ＆＃34; VULCANIZED FOOTWEAR＆＃34;，＆＃34; VULCANIZED FOOTWEAR＆＃34;），ATTRIB_VAL6 = c（＆＃34; WOMENS   体育传统＆＃34;，＆＃34;女子体育传统＆＃34;，＆＃34;女子体育   传统＆＃34;，＆＃34;女士体育传统＆＃34;，＆＃34;女士体育传统＆＃34;，   ＆＃34; WOMENS SPORT TRADITIONAL＆＃34;），ATTRIB_VAL7 = c（＆＃34; 1.38 lb＆＃34;，＆＃34; 1.38 lb＆＃34;，   ＆＃34; 1.38 lb＆＃34;，＆＃34; 1.38 lb＆＃34;，＆＃34; 1.38 lb＆＃34;，＆＃34; 1.38 lb＆＃34;），ATTRIB_VAL8 = c（＆＃34; SHOES   WOMENS SPORT＆＃34;，＆＃34; SHOES WOMENS SPORT＆＃34;，＆＃34; SHOES WOMENS SPORT＆＃34;，＆＃34; SHOES   WOMENS SPORT＆＃34;，＆＃34; SHOES WOMENS SPORT＆＃34;，＆＃34; SHOES WOMENS SPORT＆＃34;），   ATTRIB_VAL9 = c（＆＃34;女士鞋＆＃34;，＆＃34;女士鞋＆＃34;，＆＃34;女士鞋＆＃34;，   ＆＃34;女士鞋＆＃34;，＆＃34;女士鞋＆＃34;，＆＃34; WOMENS SHOES＆＃34;））。。Name =   c（＆＃34; Product_key＆＃34;，＆＃34; SRO_score＆＃34;，＆＃34; PRDF_SKU_NAME＆＃34;，＆＃34; ATTRIB_VAL1＆＃34;，   ＆＃34; ATTRIB_VAL2＆＃34;，＆＃34; ATTRIB_VAL3＆＃34;，＆＃34; ATTRIB_VAL4＆＃34;，＆＃34; ATTRIB_VAL5＆＃34;，   ＆＃34; ATTRIB_VAL6＆＃34;，＆＃34; ATTRIB_VAL7＆＃34;，＆＃34; ATTRIB_VAL8＆＃34;，＆＃34; ATTRIB_VAL9＆＃34;），row.names   = c（4107L，3927L，4260L，3794L，4246L，4140L），class =＆＃34; data.frame＆＃34;）

在数据库级别使用混合变量实现kmeans

1 个答案: