应用错误收集

删除大文件中的重复行

时间：2018-08-23 14:21:01

标签： java bloom-filter

在使用Java读取.fastq（text）文件时，如何删除重复的字符串行？当前使用下一代测序（ngs），需要从已测序文件（大数据）中删除重复的读数。我正在用Java中的Counting Bloom Filter和Cuckoo filter进行尝试，但仍然无法成功。

1 个答案:

答案 0 :(得分：0)

布鲁姆过滤器是O(1)查找，因此您无法比这快得多。

任何类型的过滤器的另一个瓶颈是数据读取速度。您是否正在尽快读取文件？

如果这只是布隆过滤器实现，那么您正在寻找我成功使用过Google Guava的情况。

请向我们提供有关您的问题的更多详细信息，然后我们应该能够提供更多帮助。