要求是使用Java将pdf文本读取为String以进行测试。我不确定是否可以使用从浏览器中提取的 Blob 网址来提取内容。
这是我在DOM中看到的
<embed id="plugin" type="application/x-google-chrome-pdf" src="blob:https://XXX.XX.XXX.com/d4c1b2ec-bd22-4e7c-aa41-31d6ba5212b3" stream-url="blob:chrome-extension://mhjfbmdgcfjbbpaeojofohoefgiehjai/141ca21a-5f63-410b-a4c8-dc9a0554eb77" headers="Content-Length: 8159 Content-Type: application/pdf " background-color="0xFF525659" top-toolbar-height="56">
我最初认为应该有一种方法来提取文本(plain或base64编码),然后将其转换为特定格式,但由于我对Blob url的理解有限,我无法找到任何答案。
这是我到目前为止所尝试过的,我得到了无响应。
var xhr = new XMLHttpRequest;
xhr.responseType = 'text';
xhr.onload = function() {
var recoveredBlob = xhr.response;
var reader = new FileReader;
reader.onload = function() {
var blobAsDataUrl = reader.result;
window.location = blobAsDataUrl;
};
reader.readAsDataURL(recoveredBlob);
};
xhr.open('GET', 'blob:https://XXX.XX.XXX.com/d4c1b2ec-bd22-4e7c-aa41-31d6ba5212b3');
xhr.send();
值得一提的是,我正在使用Selenium执行此脚本。我的目标是在不将pdf下载到任何本地计算机的情况下提取数据。所以,最终我有两个困惑:
答案 0 :(得分:0)
我最终使用 Javascript 执行器从 Selenium 运行了以下脚本。
public static String generateDataUrlFromBlobUrl(String blobUrl){
return String.format("var xhr = new XMLHttpRequest;\r\n" +
"xhr.responseType = 'blob';\r\n" +
"\r\n" +
"xhr.onload = function() {\r\n" +
" var recoveredBlob = xhr.response;\r\n" +
"\r\n" +
" var reader = new FileReader;\r\n" +
"\r\n" +
" reader.onload = function() {\r\n" +
" var blobAsDataUrl = reader.result;\r\n" +
" window.location = blobAsDataUrl;\r\n" +
" };\r\n" +
"\r\n" +
" reader.readAsDataURL(recoveredBlob);\r\n" +
"};\r\n" +
"\r\n" +
"xhr.open('GET', '%s');\r\n" +
"xhr.send();", blobUrl);
}