我正在使用Diffbot的文章API来抓取任何网站上的文章。 目前我正在获得单张图片的文章,但我想抓取特定文章的所有图像。 任何建议将不胜感激。
答案 0 :(得分:2)
默认情况下,Article API应该抓取文章中的所有图片。这是我在"图像"中获得的内容。我在this post上运行Article API时的数组:
"images": [
{
"pixelHeight": 106,
"diffbotUri": "image|3|-317133287",
"primary": true,
"pixelWidth": 474,
"url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897265phpstormlogo.jpg"
},
{
"pixelHeight": 375,
"diffbotUri": "image|3|-2098856075",
"pixelWidth": 500,
"url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897372Spear_point_knife_blade.jpg"
},
{
"pixelHeight": 525,
"diffbotUri": "image|3|-878345903",
"pixelWidth": 700,
"url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897486CXM-Framework.jpg"
},
{
"pixelHeight": 375,
"diffbotUri": "image|3|-1729707743",
"pixelWidth": 500,
"url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897666Fotolia_57724999_Subscription_Monthly_S.jpg"
},
{
"pixelHeight": 360,
"diffbotUri": "image|3|805836010",
"pixelWidth": 320,
"url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897716cordova_bot.png"
}
],
如果您没有获得相同的网址结果,您可以随时定义一个可以抓取它们的自定义规则集。我写了一些关于提取重复数据的教程here,还有一些提示here。
您能否向我们提供使API无法返回所有图片的文章的网址?也许我们可以通过查看问题的根源来一起解决问题。