寻找大数据中最长的常见序列

时间:2014-07-01 13:19:44

标签: linux bigdata data-analysis sequencing

我从一堆(数百万)小实验中得到了记录。

每个日志包含一个列表(数十到数百个)条目。每个条目都是一个时间戳和一个事件ID(有几千个唯一的事件ID,每个事件ID可能会在日志中多次出现)。以下是一个实验日志的示例:

1403973044 alpha
1403973045 beta
1403973070 gamma
1403973070 alpha
1403973098 delta

我需要找到许多实验常用的序列。

序列是几个(至少两个)相互跟随的事件ID:

alpha
beta
gamma

公共序列是至少可以在两个日志中找到的序列。日志

alpha
beta
gamma
delta
epsilon

iota
beta
gamma
epsilon
kappa

有一个共同的序列:

beta
gamma
epsilon

(显然,我在这里寻找最长的常见序列。)

我对经常发生的大序列感兴趣。我事先不知道截止值。比方说,我需要前1000个(或前30%)中的前10个(或者,可能是前100个序列)。 (该标准是随机给出的,几乎可以任意改变,以便于数据处理。)

有关如何以可扩展的方式执行此操作的任何建议吗?

我希望尽量减少我拥有的代码量,但我不想使用专有程序来获得解决方案。

......我认为在生物信息学中解决了一个类似的问题。 但他们的字母比我短得多: - )错了!蛋白质组学处理更大的字母表! (感谢@JayInNyc)

0 个答案:

没有答案