应用错误收集

尝试比较两个~100M行HDF5数据集。第一个数据集是Master，第二个是master被映射并通过集群运行以识别每行的特定结果的结果。

我需要验证master中所有预期的行是否存在，删除所有重复项并创建需要计算的任何缺失行的列表。哈希值将从两个数据集之间的公共元素生成。我意识到用本机Python逐行遍历它们是不切实际的。

在这种情况下，运行此任务的更有效方法是什么？您是否尝试在Cython中编写代码以使用Python循环速度来解决问题，或者是否有更好的＆＃34;方式？