对于我的日常工作,我的任务是设置一个计算机系统来在大型字符串数据库上运行计算。我已经建立了概念验证,但没有低级知识来优化硬件和软件环境。我希望在这方面有一些指导。
答案 0 :(得分:4)
首先,100,000个字符串现在不具备大型数据集的资格,因此不必过多担心硬件问题。以下是我之前的工作(与搜索和机器翻译相关)的一些建议,以及当前我一直处理几个100k到数百万个XML记录的建议:
答案 1 :(得分:2)
总工作应在几天内完成......
这是一次性通行证...
我错过了一个更好的方法......
如果这是一次性任务,你真的应该在亚马逊上运行 - 获得一台超大型(4Core,15GB RAM)机器几个小时,然后在那里运行。
答案 2 :(得分:1)
您的字符串相似性算法远比硬件规格重要。
关于字符串相似性的算法的关键问题是"你什么时候期望字符串相似?"您是否考虑子串,拼写错误,语音,打字错误。
This SO链接对algos进行了很好的讨论。 100,000个记录实际上是非常少的数据(在我的世界中),但为了便于实现,一旦你有一个好的算法,你应该尽量获得尽可能多的RAM。在Ruby中执行它可能不是性能视角的最佳选择。