使用Diffbot API时,API是否会在加载HTML后抓取通过JS添加的内容,或者Diffbot只看到立即可用的HTML?
答案 0 :(得分:1)
是的,Diffbot可以看到JavaScript生成的内容。
Diffbot是一个可视化学习机器人,它不仅可以解析给定URL的网页源代码。它基于一个简化的无会话版本的Chrome,旨在泄漏内存并故意成为一个糟糕的浏览器,所有这些都旨在尽可能快地完成。 Diffbot在此浏览器中呈现请求的页面,然后在视觉上检查它以获取我们已知的组件。
值得注意的是,Article API在单个调用中不执行JavaScript代码 - 仅在批量API调用,Crawlbot调用以及Analyze API(目前处于测试版)中。必须根据具体情况联系Diffbot团队,以启用针对Article API启用JS的每个域的整页渲染。
要记住的另一个限制是Crawlbot不会收集JS生成的链接。因此,如果通过JS将链接添加到页面中,Crawlbot将不看到它们。当其他API调用时,Crawlbot 将执行JS。
关于自定义API,开发界面中的预览窗口将not render JavaScript内容,但在向给定网址调用API时,内容将可用。 Diffbot团队正在努力解决这种差异。