我正在学习抓取工具,经过一些基本的尝试后,我尝试从github下载google scholar crawler master以查看它是如何运行的,在我可以解决的一些错误之后,我遇到了ModuleNotFoundError: No module named 'proxy'
错误(middleware.py
文件,from proxy import PROXIES
行是问题。)
此代码存在一些问题,其中包含python 3.x版本中不再支持/建议的解决方案,包括已重命名/移动的模块,但我无法确定是否是这种情况也很感激帮助。
答案 0 :(得分:-1)
假设您正在谈论此https://github.com/geekan/google-scholar-crawler抓取工具:
我只是试图在Python 2.7上运行它并且没有问题。简要介绍一下misc模块告诉我,相对导入可能存在问题(有关它的一些信息可以在这个问题Relative imports in Python 3中找到)。
因此,简短的回答就是使用python 2.7,因为它可以集中精力理解scrapy爬虫的工作方式,而不是理解语言版本差异。
UPD:还要确保删除代码中的所有import pdb; pdb.set_trace()
个断点