在面试中如何回答对大文件的操作?

时间:2015-02-25 03:42:26

标签: algorithm large-files

您如何从单个文件中获取所有唯一ID?如果它是一个非常大的文件怎么办?

假设您有一个包含大量单词的大文件。你怎么会找到独特的单词和他们的数量?

我假设唯一字的数量可以大到十亿

2 个答案:

答案 0 :(得分:0)

准确:使用大量内存。

估算:Approximate CountingLinear CountingHyperLogLog Counting等。

答案 1 :(得分:0)

你可以使用像try,HashMaps等高效的数据结构来实现。正如你所说,它是一个大文件,一次读取文件的一部分并处理它,然后继续文件的其余部分.. < / p>