在我之前的问题中,我在寻求一个算法的建议来比较巨大列表中的所有元素: Scala: Compare all elements in a huge list
我面临的一个更普遍的问题,并希望得到一些建议是对列表元素进行近似比较,以获得一次不适合内存的列表。我正在从SQL请求构建此列表,该请求返回一个游标以迭代大约70 000 000条记录的单个字符串字段。我需要在此列表中的每两个字符串元素之间找到edit-distance(http://en.wikipedia.org/wiki/Edit_distance)。
我的想法是使用N条记录的滑动窗口来比较所有70 000 000条记录:
所有比较结果我需要将DB写入(String,String,Distance)记录,其中前两个元素是要匹配的字符串,第三个是结果。
问题:
谢谢!