寻找最常见的数字组合

时间:2016-09-02 13:58:38

标签: python numpy

我有一个包含1000个7个数字序列的列表,我想知道哪个数字组合最常见,从2到7个数字。

因此,例如,在此列表中:

1, 2, 3, 4, 5, 6, 7
1, 2, 4, 5, 6, 8, 9
1, 2, 9, 10, 12, 15, 27

[1, 2]将是2号类别中得分最高的序列 [1, 2, 4]将是3号类别的my $sth = $dbh->prepare('INSERT INTO `teso`( Terminal, Zeitstempel, Ergebnisnummer, Ergebnistext, Transart, Belegnummer, `Trace`, Betrag, Kartenart, Kartennummer, Entrymode ) values ( ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ? )'); $sth->execute($tid, $zeit, $ergebnisnummer, $ergebnistext, $transart, $belegnummer, $trace, $betrag, $kartenart, $kartennummer, $entrymode) or die $DBI::errstr;

我有一种感觉numpy或其他框架可以帮助我这个,但我没有任何掌握统计数据,我缺乏必要的词汇来描述,因此找到我想要的。

提前致谢!

1 个答案:

答案 0 :(得分:1)

您可以使用数据挖掘方法来实现您的目标:它被称为频繁项集挖掘。

确实,假设:

1, 2, 3, 4, 5, 6, 7
1, 2, 4, 5, 6, 8, 9
1, 2, 9, 10, 12, 15, 27

是您的事务数据库,其中事务是一行(例如:1,2,3,4,5,6,7),并且事务包含您的案例中的整数项。然后,目标是确定最频繁的项目集(即在事务数据库中出现最多的项目/整数集合)。 pymining是一个用于实现此类任务的python库(https://github.com/bartdag/pymining