我面临一个奇怪的问题,即在高速推送时,转换步骤之间会丢失数据。详细信息是,我们要求通过自定义算法查找副本。由于记录的数量可能很大(数百万),我们暂时将整个记录写为lucene索引作为文档。然后在应用算法后,找到重复集并将其写入另一个lucene索引。现在,作为文档,lucene索引中提供了要推送到下一步的所有记录。然后在循环中使用putRow方法推送数据。当数据被高速推送时,我们发现在下一步中没有完全接收到这些行。数据丢失是一致的,记录和字段丢失是随机的。当使用50到100毫秒的Thread.sleep时,我们将在下一步中接收整个数据。最大的担忧是不会以任何方式捕获或警告数据丢失。现在我的问题是
putRow中的数据放置是否确保将记录发送到下一步。
如果不是如何确保在后续步骤中正确接收数据。
对此方面的任何帮助表示高度赞赏。如果需要,我可以提供代码。