有效地比较Python中的两个~100M行数据集?

时间:2014-12-10 20:58:04

标签: python dataset cython

尝试比较两个~100M行HDF5数据集。第一个数据集是Master,第二个是master被映射并通过集群运行以识别每行的特定结果的结果。

我需要验证master中所有预期的行是否存在,删除所有重复项并创建需要计算的任何缺失行的列表。哈希值将从两个数据集之间的公共元素生成。我意识到用本机Python逐行遍历它们是不切实际的。

在这种情况下,运行此任务的更有效方法是什么?您是否尝试在Cython中编写代码以使用Python循环速度来解决问题,或者是否有更好的"方式?

0 个答案:

没有答案