我正在开发一个自定义RSS提要聚合器,用于解析来自各种新闻类型网站的RSS提要,显示摘要并链接回原始网站。没什么特别令人兴奋的。
我也尝试使用原始网页的图片元标记来获取每篇文章的图片。
但是,我发现当以编程方式访问图像时,og:image标记中的许多URL会返回400,403或404错误。
有些人似乎在标题中检查浏览器的用户代理字符串,因此仅用于测试,我将我的User-Agent字符串标题设置为Safari的标题:这会得到一些og:图像链接工作,但它不是一个可接受的解决方案(伪装成浏览器的爬虫)。
虽然这对大多数图像不起作用,但仍继续返回400/403。
假设我测试的所有网站都没有丢失的图像文件,而且他们主动阻止Facebook / Twitter以外的任何人使用这些图像,还有其他方法可靠地以编程方式检索要显示的图像RSS聚合器?
Feedly等似乎都有大部分聚合内容的图像,所以我不清楚为什么会遇到这样的困难。
答案 0 :(得分:2)
您已经找到了解决方案,这确实不是首选:更改您的用户代理字符串。
您也可以通过其他方式解决问题;而不是自己抓取图像,您只保存图像的URL。在RSS feed聚合器中,您使用该直接图像URL,以便执行请求的浏览器是真实客户端,而不是您的(服务器端启动的)爬虫。
那会有用吗?