Diffbot API:“如何在node.js中使用Diffbot获取多个图像?”

时间:2014-09-17 17:21:26

标签: node.js diffbot

我正在使用Diffbot的文章API来抓取任何网站上的文章。 目前我正在获得单张图片的文章,但我想抓取特定文章的所有图像。 任何建议将不胜感激。

1 个答案:

答案 0 :(得分:2)

默认情况下,Article API应该抓取文章中的所有图片。这是我在"图像"中获得的内容。我在this post上运行Article API时的数组:

"images": [
        {
          "pixelHeight": 106,
          "diffbotUri": "image|3|-317133287",
          "primary": true,
          "pixelWidth": 474,
          "url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897265phpstormlogo.jpg"
        },
        {
          "pixelHeight": 375,
          "diffbotUri": "image|3|-2098856075",
          "pixelWidth": 500,
          "url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897372Spear_point_knife_blade.jpg"
        },
        {
          "pixelHeight": 525,
          "diffbotUri": "image|3|-878345903",
          "pixelWidth": 700,
          "url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897486CXM-Framework.jpg"
        },
        {
          "pixelHeight": 375,
          "diffbotUri": "image|3|-1729707743",
          "pixelWidth": 500,
          "url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897666Fotolia_57724999_Subscription_Monthly_S.jpg"
        },
        {
          "pixelHeight": 360,
          "diffbotUri": "image|3|805836010",
          "pixelWidth": 320,
          "url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897716cordova_bot.png"
        }
      ],

如果您没有获得相同的网址结果,您可以随时定义一个可以抓取它们的自定义规则集。我写了一些关于提取重复数据的教程here,还有一些提示here

您能否向我们提供使API无法返回所有图片的文章的网址?也许我们可以通过查看问题的根源来一起解决问题。