我正在尝试找出在关系数据库中对存储信息实施复杂算法的最佳实践。
具体来说:我想在包含许多文档的TFxIDF向量的大型MS SQL Server数据库上实现k-means算法(文档聚类算法)的变体(这些向量用作算法的输入)。
我的第一个想法是使用存储过程,函数,视图和所有其他基本的SQL Server工具在SQL中完成整个过程,但后来我想也许我应该编写托管代码(我能说流利的C#)在SQL Server上执行。
性能是一个问题,所以我也需要考虑到这一点。
我很感激我应该采取的任何建议。
谢谢!
答案 0 :(得分:1)
性能是一个问题
一直都是。在查看此类代码时,您必须考虑两种相反的趋势:
另一方面:
将这两点放在一起,性能的最佳方法通常是使用数据库中的查询功能来提取您真正需要的记录子集,并且可以执行一些更简单的预处理 - 如果你愿意的话,低调的水果。然后在可能的情况下并行完成应用程序服务器上的繁重工作。