应用错误收集

我正在开发一个自定义RSS提要聚合器，用于解析来自各种新闻类型网站的RSS提要，显示摘要并链接回原始网站。没什么特别令人兴奋的。

我也尝试使用原始网页的图片元标记来获取每篇文章的图片。

但是，我发现当以编程方式访问图像时，og：image标记中的许多URL会返回400,403或404错误。

有些人似乎在标题中检查浏览器的用户代理字符串，因此仅用于测试，我将我的User-Agent字符串标题设置为Safari的标题：这会得到一些og：图像链接工作，但它不是一个可接受的解决方案（伪装成浏览器的爬虫）。

虽然这对大多数图像不起作用，但仍继续返回400/403。

假设我测试的所有网站都没有丢失的图像文件，而且他们主动阻止Facebook / Twitter以外的任何人使用这些图像，还有其他方法可靠地以编程方式检索要显示的图像RSS聚合器？

Feedly等似乎都有大部分聚合内容的图像，所以我不清楚为什么会遇到这样的困难。