应用错误收集

我有一个很大但有限的字符串集，这些字符串中的任何两个都不太可能是相同的，但这正是我想检查的内容。所有字符串的长度大约为+/- 1个字符。

让我们假设一个例子（但数字可能会改变），我有一组300亿个字符串，每个字符串长约30个字符。在一个天真的方法中，我会将所有这些都填入哈希并检查冲突。那实际上是O（n）运行时。

由于内存是限制因素，我无法将所有字符串填充到内存中，因此我必须对数据集进行分区。假设我可以在内存中填充1亿个字符串，并且针对这些1亿个字符串检查另一个字符串基本上是O（1）运行时。

我的高效算法（就运行时而言）如何？