您如何从单个文件中获取所有唯一ID?如果它是一个非常大的文件怎么办?
或
假设您有一个包含大量单词的大文件。你怎么会找到独特的单词和他们的数量?
我假设唯一字的数量可以大到十亿
答案 0 :(得分:0)
准确:使用大量内存。
估算:Approximate Counting,Linear Counting或HyperLogLog Counting等。
答案 1 :(得分:0)
你可以使用像try,HashMaps等高效的数据结构来实现。正如你所说,它是一个大文件,一次读取文件的一部分并处理它,然后继续文件的其余部分.. < / p>