从blob url读取计划/文本

时间:2016-08-16 12:56:16

标签: javascript java selenium url blob

要求是使用Java将pdf文本读取为String以进行测试。我不确定是否可以使用从浏览器中提取的 Blob 网址来提取内容。

这是我在DOM中看到的

<embed id="plugin" type="application/x-google-chrome-pdf" src="blob:https://XXX.XX.XXX.com/d4c1b2ec-bd22-4e7c-aa41-31d6ba5212b3" stream-url="blob:chrome-extension://mhjfbmdgcfjbbpaeojofohoefgiehjai/141ca21a-5f63-410b-a4c8-dc9a0554eb77" headers="Content-Length: 8159 Content-Type: application/pdf " background-color="0xFF525659" top-toolbar-height="56">

我最初认为应该有一种方法来提取文本(plain或base64编码),然后将其转换为特定格式,但由于我对Blob url的理解有限,我无法找到任何答案。

这是我到目前为止所尝试过的,我得到了无响应。

var xhr = new XMLHttpRequest;
xhr.responseType = 'text';

xhr.onload = function() {
   var recoveredBlob = xhr.response;

   var reader = new FileReader;

   reader.onload = function() {
     var blobAsDataUrl = reader.result;
     window.location = blobAsDataUrl;
   };

   reader.readAsDataURL(recoveredBlob);
};

xhr.open('GET', 'blob:https://XXX.XX.XXX.com/d4c1b2ec-bd22-4e7c-aa41-31d6ba5212b3');
xhr.send();

值得一提的是,我正在使用Selenium执行此脚本。我的目标是在不将pdf下载到任何本地计算机的情况下提取数据。所以,最终我有两个困惑:

  1. 是否可以从创建为&lt; Content-Type:application / pdf&#39;?
  2. 创建的blob网址中提取数据
  3. 还有别的办法吗?可能,将blob url转换为dataurl,然后将内容提取为String?

1 个答案:

答案 0 :(得分:0)

我最终使用 Javascript 执行器从 Selenium 运行了以下脚本。

public static String generateDataUrlFromBlobUrl(String blobUrl){

    
       return String.format("var xhr = new XMLHttpRequest;\r\n" + 
            "xhr.responseType = 'blob';\r\n" + 
            "\r\n" + 
            "xhr.onload = function() {\r\n" + 
            "   var recoveredBlob = xhr.response;\r\n" + 
            "\r\n" + 
            "   var reader = new FileReader;\r\n" + 
            "\r\n" + 
            "   reader.onload = function() {\r\n" + 
            "     var blobAsDataUrl = reader.result;\r\n" + 
            "     window.location = blobAsDataUrl;\r\n" + 
            "   };\r\n" + 
            "\r\n" + 
            "   reader.readAsDataURL(recoveredBlob);\r\n" + 
            "};\r\n" + 
            "\r\n" + 
            "xhr.open('GET', '%s');\r\n" + 
            "xhr.send();", blobUrl);
}