应用错误收集

我有两个大文件。驱动程序文件包含3000万装运详细信息。另一个文件包含每个货件的更正详细信息。根据货件的特定校正标准，我必须构建图像校正前后的细节。

要确定特定的更正标准，我必须通读所有先前的托运更正，然后再构建前后图像。

当前，我使用Pandas数据框在Python中构建了此逻辑。此逻辑适用于300K记录，并且只需不到5分钟即可完成。但是，如果我想将其用于具有30+百万条记录的真实生产文件，则该文件将在我的VDI机器上运行很长时间。

我们最近获得了Google云平台，数据工程团队正在此云上进行一些POC。因此，我正在考虑将Apache Beam用于此要求。我对Apache Beam的了解非常有限。我可以使用此工具通过数据管道破坏此文件，并使其以小段的片段运行。这可能吗？这是Apache Beam的正确用例吗？