我一直在研究Jupyter笔记本中的项目,并想使用重复数据删除。通过anaconda,Windows机器上仅可使用重复数据删除-hcluster,因此我安装了该程序并尝试将hcluster导入笔记本,这会导致此错误:
“ ImportError:DLL加载失败:%1不是有效的Win32应用程序。”
据我所读,这意味着Python是32位的,而hcluster是64位的,反之亦然。但是我不清楚如何解决此问题。
然后,我尝试将笔记本转换为Pycharm脚本,以便可以使用其他版本的重复数据删除,例如重复数据删除,重复数据删除hcluster或pandas-dedupe。我在安装pandas-dedupe时遇到问题,因此与前两个一起进行。导入重复数据删除会出现此错误:
“导入错误:没有名为_lowlevel的模块”
并导入hcluster会出现此错误:
“导入错误:无法导入名称_hierarchy”
我已经完成了对所有这三个问题的无休止的阅读,并且距离解决任何一个问题都近了。 关于如何解决上述问题的任何建议将不胜感激。
答案 0 :(得分:1)
看起来您需要安装64位版本的Python;您可以通过以下方法检查使用的版本:
import struct
print( 8 * struct.calcsize("P"))
这将输出32或64
然后确保正确安装了重复数据删除。 Dedupe库的轮子尺寸合适,但安装容易。 (在Python3上很容易,对Python2不确定)
答案 1 :(得分:1)
如果您正在使用Anaconda和Jupyter笔记本,请确保Anaconda环境在笔记本中处于活动状态。