应用错误收集

请评论并批评该方法。

场景：我在平面文件中有一个大型数据集（2亿条目）。数据的形式是 - 一个10位数的电话号码，后跟5-6个二进制字段。每周我都会得到一个Delta文件，它只包含对数据的更改。

问题：给定一个项目列表，我需要确定数据集中是否存在每个项目（将是10位数字）。

我计划的方法：

将解析数据集并将其放入数据库（要在数据集的开头处完成）像MySQL或Postgres一样）。我之所以想拥有RDBMS 第一步是我想拥有全时系列数据。
然后用这个数据库生成某种Key Value商店支持操作的最新有效数据，以确定是否每个项目是否存在于数据集中（思考某种类型 NOSQL db，就像Redis这里针对搜索进行了优化。应该有持久性和分发）。 此数据结构将为只读。
查询此键值存储以查明每个项目是否存在（如果可能的话，一次匹配一个值列表而不是匹配一次一件）。希望这是快速的。 将使用此功能作为REST API的后端

Sidenote ：我喜欢的语言是Python。