Question

我有2个文件

第一份文件的格式为：

offer, location(currently only zips)
1, 84121
1, 84101
1, 58103
1, 58102
2, 84121
2, 84101
...
...

此列表有超过40亿行。

第二个是来自USPS的一段邮政编码数据及相关栏目：

Zip, City, State
84121, Salt Lake, UT
84101, Salt Lake, UT
....
....

在小范围内，我可以运行一系列设定差异，以将要约转换为各自的州，并且城市包含州或城市的所有拉链。例如：通过将要约的拉链分组到我得到的集合中 1，设置（[84121,84101,58103,58102 ....]）

然后按州分组第二个列表： UT，设置（[84121,84101，.....]）

所以现在我可以迭代地在所有50个状态之间运行一组差异所以它是UT拉链 - 提供1的拉链是一个空集。我可以从商品1中减去UT拉链并添加UT等等。因此，如果报价1包含UT和AZ的所有拉链，而且只有少数来自华盛顿特区我想最终得到

offer, location
1, UT
1, AZ
1, 20011
....
....

然后我迭代地为所有城市运行相同的流程，以便为每个要约转换剩余的邮政编码。

毋庸置疑，这个过程效率极低，不能很好地扩展。我不确定什么是更好的解决方案。我已经查看了这篇文章here，虽然这种方法适用于交叉2套我不认为它适合我的情况。感谢