我在postgresql数据库中存储了30亿个字符串。我想制作频率图,这样我就可以丢弃少于100次或超过100,000次的字符串。我应该使用什么样的数据结构?我正在考虑某种布隆过滤器。
答案 0 :(得分:0)
您可以使用HyperLogLog,它可以让您估算内存占用较少的多集的基数。
这是一个example,它使用java-hll,即HyperLogLog的java实现。如果java不适合你,你可以搜索github用于其他语言的实现。
或者,您可以使用standalone implementation。