我正在使用nodejs上的simplecrawler来搜寻新闻站点。我在forbes.com上遇到问题,要求GDPR获得Cookie的同意。同意书由truste.com制作。
Simplecrawler具有允许cookie的设置,我已标记为true,并且还允许受信任的域在其cookie同意中使用。
我无法抓取《福布斯》,因为抓取器不断使用302重定向到同意书。在查看“网络”标签和同意书的来源后,我无法确定要通过该标签需要什么。
任何想法如何克服它?我可以使用非欧盟代理,但这并不是我真正想要的。