我正在构建一个基于斜坡的推荐器。该系统拥有4000万用户和100万个项目。每个用户评价约10项。 偏差矩阵作为批处理的一部分计算,并加载到内存中(放入分布式缓存)
我面临的问题是运行时的性能! 在运行时为用户重新建立逻辑如下: 对于每个未被用户评定的项目(此数字相当高= 1百万 - 10) 对于用户评定的每个项目(10) 计算平均偏差 ...
现在根本问题是外环太高(100万 - 10)。在运行时进行一些计算永远不会执行!
你们有没有解决这个问题?有没有办法在运行时减少这种计算?
谢谢, 亚洲时报Siddharth