用Scrapy和Splash抓取单页反应网站后关注链接

时间:2017-01-02 04:11:17

标签: javascript python html web-scraping scrapy

我目前正在使用Scrapy来搜索网站。我也使用Splash渲染该网站。执行启动后响应返回的html是

<li data-link="shoppingSearch" class="menu-list-item__body--item" 
data-reactid=".0.1.1.0.1.$1.1.0.$0">Book</li>

我可以创建一个选择器来提取数据链接或重新提示,但我不知道如何关注此链接。我的最终目标是获取表单并向其提交数据。

1 个答案:

答案 0 :(得分:0)

如果您使用splash的http api或调用wait函数,则可以尝试增加splash:wait()参数。

e.g:

curl 'http://localhost:8050/render.html?url=http://domain.com/page-with-javascript.html&wait=3'

请参阅splash render.html endpoint argumentssplash:wait()