Portia Scrappy无法加载响应

时间:2016-07-19 11:14:54

标签: javascript python html web-crawler screen-scraping

我在我的计算机上安装了Portia,以便通过交互式支持来抓取内容。我发现它的无头浏览器Splash无法加载响应式图像,即www.bbc.com

我知道Portia删除了HTML中的所有javascript,但是这种情况下可能需要渲染这些图像。

有没有办法附加javascript以便

  1. 查找占位符元素
  2. 用透明替换占位符 图像
  3. 更新每个图像的src属性并分配最佳 质量/尺寸比率网址
  4. 喜欢https://github.com/BBC-News/Imager.js

    我在Portia项目中找到了一个功能,但没有说明问题,请给我一些提示尝试

    def populate_window_object(self):
            main_frame = self.tab.web_page.mainFrame()
            main_frame.addToJavaScriptWindowObject('__portiaApi', self.js_api)
            self.tab.run_js_files(
                os.path.join(self.assets, 'splash_content_scripts'),
                handle_errors=False)
    

0 个答案:

没有答案