我正在调查如何以“最佳和最近的方式”抓取网址。我打算从网址中检索一张图片。首先来自链接标签<link rel="image_src" href="http://stackoverflow.com/images/logo.gif" />
,然后来自og标签...也许,如果我什么都没有,请尝试获得第一个足够大的img。换句话说,在缩略图检索上的Facebook版本。
所以我在互联网上读东西,当我以为我找到了我需要的东西时,似乎解决方案已经很老了(比如5-6岁http://www.lightspeedretail.com/cloud/blog/2007/08/scraping-links-with-php/):使用cURL
的解决方案,DOMDocument
和XPath
基本上。然后我只需要处理我得到的图像网址,例如以不同的大小存储它的几个版本。但我对这部分很好。
有没有比这个解决方案更好的东西?理想情况下,链接标记的示例非常棒。