我想从显然使用javascript生成表格的网站上抓取内容(网站是oddsportal.com)。
我看到Scrapy无法加载动态内容,我读过selenium可以处理它,但我打算使用网络服务器。
有没有办法可以解析这个网站或获取动态请求并使用scrapy解析它?
例如,我想从此页面导入包含标题,匹配名称和赔率的完整表格
答案 0 :(得分:0)
根据我的理解,你有一个约束,你没有真正的显示。你仍然可以使用selenium - 有一个无头PhantomJS
browser可以自动化,有一个选项可以在virtual display中工作,你可以使用远程selenium服务器或docker-selenium
。
关于如何组合硒和scrapy有多个例子,例如:
并且还要检查scrapy-splash
中间件是否足以满足您的使用案例。
答案 1 :(得分:0)