试图找出如何提高使用Scrapy获取URL的例程的效率。
虽然缓存已经到位,但URL越多,完成操作所需的时间越长,对于大量的URL列表,处理时间变得不可接受。
多线程已经带来了一些好处,但我仍然远离最佳性能。
你会做些什么来改善事情?我最初想过使用memoization技术,但对我来说是新的东西,我不确定是否可以看到好处。 背后的想法是,memoization是一种能够存储调用和计算结果的机制,我可以看到不访问磁盘以检查先前是否已经处理过缓存URL的好处。
你有什么想法? 任何其他建议真的很感激。