当我尝试使用Scrapy抓取它时,我正在抓取引发以下错误的网站:
调试一段时间之后我发现返回的页面有内联的Javascript代码,它生成一个唯一的cookie(用一个非常复杂的机制生成,在HTML中编码,然后用Javascript解码并运行)。设置Cookie后,页面会使用window.location.reload(true)
刷新,Cookie会被发送,然后我会返回所需的页面。
但是,由于我无法在HTML响应中运行<script>
标记,因此我无法获得唯一的Cookie值。
有没有人遇到过这样的事情?我该怎么做才能解决这个问题?