在使用Java读取.fastq(text)文件时,如何删除重复的字符串行?当前使用下一代测序(ngs),需要从已测序文件(大数据)中删除重复的读数。我正在用Java中的Counting Bloom Filter和Cuckoo filter进行尝试,但仍然无法成功。
答案 0 :(得分:0)
布鲁姆过滤器是O(1)
查找,因此您无法比这快得多。
任何类型的过滤器的另一个瓶颈是数据读取速度。您是否正在尽快读取文件?
如果这只是布隆过滤器实现,那么您正在寻找我成功使用过Google Guava的情况。
请向我们提供有关您的问题的更多详细信息,然后我们应该能够提供更多帮助。