应用错误收集

在面试中如何回答对大文件的操作？

时间：2015-02-25 03:42:26

标签： algorithm large-files

您如何从单个文件中获取所有唯一ID？如果它是一个非常大的文件怎么办？

或

假设您有一个包含大量单词的大文件。你怎么会找到独特的单词和他们的数量？

我假设唯一字的数量可以大到十亿

2 个答案:

答案 0 :(得分：0)

准确：使用大量内存。

估算：Approximate Counting，Linear Counting或HyperLogLog Counting等。

答案 1 :(得分：0)

你可以使用像try，HashMaps等高效的数据结构来实现。正如你所说，它是一个大文件，一次读取文件的一部分并处理它，然后继续文件的其余部分.. < / p>