更新26-May-16 :尝试了新算法。见底部。
我正在寻找算法和工具集的建议来获取项目对的频率计数。对于那些熟悉它的人来说,这类似于"市场篮子"问题("啤酒和尿布"型号),除了我需要发生的每一对的频率计数。
我有大约500万条记录。每条记录是10到300个项目的列表。这些项目的整数范围从1到大约250,000。所以,例如:
1: [85708, 28302, 1045, 20395]
2: [20382, 3092, 2933, 20993, 58585, 4855, 112393, 38347, 20447, 33892]
3: [118082, 30282, 2859, 585, 1045, 20395, 2383, 85855, 182582, 223]
我想生成一个表来回答这个问题:
对于任何一对2项,它们在同一记录中出现了多少次?
例如,记录1生成对:(85708,28302),(85708,1045),(85708,20395),(28302,1045),(28302,20395)和(1045,20395)。我想计算整个数据集中每个对的频率。 [顺序并不重要]。
要了解它需要处理的大小:记录的平均长度为85项。对于该长度的记录,需要计算的是3655(= 86 * 85/2)对项目。对于那个长度的500万条记录,需要计算180亿对项目。在大多数运行中,记录的中位数长度远低于平均值(大多数记录包含< 18项,而少数记录包含更多),因此实际的对数可能不会达到180亿,但是它绝对可能是几十亿。
单个项目的频率分布遵循幂律,具有一些高频项目和许多低频项目;在最近一次大于正常尺寸的跑步中,最终有大约20亿个不同的物品对,其频率大于0。绝大多数潜在的对组合都不会发生;每次运行都不同,但我估计最多可能会出现15%的配对组合,并且在大多数情况下,会发生不到2%。
我有一个准确无误的程序,但速度很慢。我现在想要优化速度。它是使用Python和MySql的强力手段:
itertools.combinations
,逐个记录循环并生成每个记录所有项目的组合。item1 (int), item2 (int), frequency (int), primary key (item1, item2)
。对于我们计算的每一对项目组合,执行insert... on duplicate key update
:即,如果该表中不存在该对,则插入频率为1的对。如果该对存在,则增加频率那对由1。处理需要大约15个小时。当我刚才写这篇文章时,时间并不重要,我只需要运行一次就可以获得永远不需要更新的静态结果。但现在输入记录将会发生变化,我需要进行优化,以便每天至少重新生成一次结果。结果需要采用一种形式,可以用于非常快速地查找项目对的频率;我认为像索引的数据库表。
我基本上改变了暴力程序,通过玩读写批次来提高效率;处理时间的大部分发生在"如果它不存在/增加对频率计数(如果它存在")则插入该对。我的小调整使处理时间减少了大约15%。
另一个调整是因为我已经拥有每个单项的频率,所以我可以试着预先播种"具有最可能频繁组合的数据库(例如,前5,000 x 5,000),然后在Python中将我发现的对组合根据其项目编号分成两组:"肯定在db"并且"不知道它是否在数据库中。"它可以为数据库节省一些时间,但代价是让Python需要跟踪频繁的项目并将它们分开....
所以我可以继续做这样的调整,并在这里和那里节省几个百分点,但是我想做正确的事情,现在用一个好的算法和好的工具重新编写程序,而不是浪费时间调整一个糟糕的过程,这个过程很快拼凑起来进行一次性使用,并且从未计划过效率。
它必须运行在用户的单一独立桌面(标准规格)上,无需外部存储或分布式计算。
理想情况下,我想从python运行该过程。 Numpy,scipy,blas / lapack都可以。 (我看了python&collections.counter
每{{}}}一个相关的问题,但我认为我的大小太大了;告诉我这是不是错了{{1}可能是有效的)。
我的问题类似于Counter
,它最初来自一家商店,该商店记录了顾客在一个购物篮中购买的物品(并得出了一个着名的结论,即购买尿布的人非常有可能购买啤酒) [感谢@lzcig链接到市场篮子问题的this answer]。市场篮子问题的策略过滤项目对下到最常见的对,并且不计算任何不适合主存储器的东西。但在我的情况下,我需要计算发生的每一对,即使它只发生一次。所以我需要一个算法和工具集来有效地存储和索引所有这些。我不想重新发明轮子,我真的很想找到一个能够有效处理这个问题的解决方案。
您认为什么是最佳解决方案?
更新(16-May-16): 我开发了一种解决方案,可以在2小时内精确计算出数十亿对的完整数据集。基本理念:
这在很大程度上取决于系统内存的最大化。我一直在监视内存使用情况,试图尽可能多地获取内存。瓶颈是磁盘读/写:合并数百个巨大的文件比我认为的要强得多。因此,我已经开始使用减少文件数量的设置:合并一些大型文件比合并许多较小的文件要好。
在4GB的RAM上,处理最近一批拥有数十亿对的500万条记录需要2小时的时间。它肯定比我最初的15个小时好,但它感觉非常hacky,我确信必须有更好的方法来计算对。如果您有任何想法,请告诉我。
答案 0 :(得分:1)
您可以打印出每条记录的所有不同元素对,然后利用任何Unix中可用的精心设计的sort
命令将相同的对组合在一起,最后计算每个相同块中的行数uniq -c
:
perl -lne '($_) = /\[(.*)\]/ or die; @x = sort { $a <=> $b } split /, /; for ($i = 0; $i < @x - 1; ++$i) { for ($j = $i + 1; $j < @x; ++$j) { print "$x[$i] $x[$j]"; } }' | sort -g | uniq -c > outfile
这需要很长时间才能达到180亿行,但它应该比重复更新B * -tree更快,这是SQL数据库很可能在内部进行的。 (换句话说:如果更新B * -tree实际 比这更快,那么sort
的所有实现也将在内部做到这一点。)你将不得不尝试它出来看看。
要查询此数据库&#34;,您只需二进制搜索outfile
- 无需将整个内容加载到内存中。 (您可能希望首先将其转换为更紧凑的二进制格式,但这实际上并不是必需的 - 您仍然可以在纯文本文件上执行二进制搜索,只需始终向前读取,直到您点击{{1}在每次搜索之后。一旦你搜索的范围变得足够小,你可能想要将它完整地读入内存并继续在内存中进行二进制搜索。)
如果您不关心Perl,我确信您可以使用Python或任何其他语言编写第一部分代码。