我试图从网上商店中抓取产品,类似于Dropified从阿里快递中抓取商品的方式,
当前解决方案(它的设置方式只会尝试访问第一项):
Pokemon Go
此解决方案的工作原理是假设页面上的项目不需要javascript,如果项目执行,它只会在文档准备好之前检索初始页面。
我意识到我可以使用python网络驱动程序,但我想知道是否有任何其他解决方案可以轻松实现网络抓取工具的自动化。
答案 0 :(得分:1)
使用selenium
结帐phantomjs
。 selenium
和phantomjs
处理与页面上JS生成的内容相关的大多数问题。你甚至不需要再考虑这些事了
如果您要抓取很多页面并希望加快速度,那么您可能希望异步执行某些操作。对于中小型设置,您可以使用RQ
。对于较大的项目,您可以使用celery
。这些工具允许你做的是同时刮掉多个页面(虽然不是同时)
请注意,我到目前为止提到的工具与asyncio
或其他async
框架无关。
我试图抓取一些电子商务页面,并注意到程序花了80%的时间等待HTTP调用返回一些东西。使用上述工具,您可以减少80%到10%或更少。