删除大文件中的重复行

时间:2018-08-23 14:21:01

标签: java bloom-filter

在使用Java读取.fastq(text)文件时,如何删除重复的字符串行?当前使用下一代测序(ngs),需要从已测序文件(大数据)中删除重复的读数。我正在用Java中的Counting Bloom FilterCuckoo filter进行尝试,但仍然无法成功。

1 个答案:

答案 0 :(得分:0)

布鲁姆过滤器是O(1)查找,因此您无法比这快得多。

任何类型的过滤器的另一个瓶颈是数据读取速度。您是否正在尽快读取文件?

如果这只是布隆过滤器实现,那么您正在寻找我成功使用过Google Guava的情况。

请向我们提供有关您的问题的更多详细信息,然后我们应该能够提供更多帮助。