应用错误收集

让我们假设我们定期收到一组数字。这些数字是固定的间隔，比如一到一千。如果我在一段时间内收集这些数字，我该如何

例如，{790, 111, 432}，{123, 121}，{770, 123}会导致

而{790, 111, 432}，{123, 121}，{770, 123}，{770, 439, 98}，{111, 432, 190}会导致

群组：{790, 111, 432, 190}和{123, 770, 123, 439, 98}
序列：{790, 111, 432, 190, 770, 439, 98, 123, 121}
（或{790, 111, 432, 190, 770, 123, 121, 439, 98}
{123, 770, 123, 439, 98, 790, 111, 432, 190} ...）

第一个可能很容易。我试图创建一个距离矩阵，并从距离矩阵中绘制信息。我尝试的另一个想法是加载到HDFS，并运行Mahout谱聚类，但成效有限。我觉得必须使用一些聚类算法。任何帮助都会很棒。

第二个是一个更复杂的问题，我认为简单的改组数字不会起作用，因为存在概率因素。

用于解决这两个问题的正确工具/算法是什么？