我有两个大文件。驱动程序文件包含3000万装运详细信息。另一个文件包含每个货件的更正详细信息。根据货件的特定校正标准,我必须构建图像校正前后的细节。
要确定特定的更正标准,我必须通读所有先前的托运更正,然后再构建前后图像。
当前,我使用Pandas数据框在Python中构建了此逻辑。此逻辑适用于300K记录,并且只需不到5分钟即可完成。但是,如果我想将其用于具有30+百万条记录的真实生产文件,则该文件将在我的VDI机器上运行很长时间。
我们最近获得了Google云平台,数据工程团队正在此云上进行一些POC。因此,我正在考虑将Apache Beam用于此要求。我对Apache Beam的了解非常有限。我可以使用此工具通过数据管道破坏此文件,并使其以小段的片段运行。这可能吗?这是Apache Beam的正确用例吗?