标签: python dataset cython
尝试比较两个~100M行HDF5数据集。第一个数据集是Master,第二个是master被映射并通过集群运行以识别每行的特定结果的结果。
我需要验证master中所有预期的行是否存在,删除所有重复项并创建需要计算的任何缺失行的列表。哈希值将从两个数据集之间的公共元素生成。我意识到用本机Python逐行遍历它们是不切实际的。
在这种情况下,运行此任务的更有效方法是什么?您是否尝试在Cython中编写代码以使用Python循环速度来解决问题,或者是否有更好的"方式?