Diffbot会执行JavaScript吗?

时间:2014-07-23 15:46:29

标签: javascript ajax web-crawler extract diffbot

使用Diffbot API时,API是否会在加载HTML后抓取通过JS添加的内容,或者Diffbot只看到立即可用的HTML?

1 个答案:

答案 0 :(得分:1)

是的,Diffbot可以看到JavaScript生成的内容。

Diffbot是一个可视化学习机器人,它不仅可以解析给定URL的网页源代码。它基于一个简化的无会话版本的Chrome,旨在泄漏内存并故意成为一个糟糕的浏览器,所有这些都旨在尽可能快地完成。 Diffbot在此浏览器中呈现请求的页面,然后在视觉上检查它以获取我们已知的组件。

值得注意的是,Article API在单个调用中执行JavaScript代码 - 仅在批量API调用,Crawlbot调用以及Analyze API(目前处于测试版)中。必须根据具体情况联系Diffbot团队,以启用针对Article API启用JS的每个域的整页渲染。

要记住的另一个限制是Crawlbot不会收集JS生成的链接。因此,如果通过JS将链接添加到页面中,Crawlbot将看到它们。当其他API调用时,Crawlbot 执行JS。

关于自定义API,开发界面中的预览窗口将not render JavaScript内容,但在向给定网址调用API时,内容可用。 Diffbot团队正在努力解决这种差异。

enter image description here

来源:Diffbot Support