是否可以在输入时从File API提取PDF中的文本,而不是获取存储的文档?

时间:2019-07-16 17:17:19

标签: javascript pdfjs

我正在尝试构建一个基于Web的实用程序,该实用程序允许用户使用<input type="file">“选择”系统文件并立即从文件中提取文本数据,而不必将文件上传到服务器。然后,我将从文件中解析文本以用于多个应用程序。

我遇到过这种从PDF文件提取或抓取文本的方法:https://ourcodeworld.com/articles/read/405/how-to-convert-pdf-to-text-extract-text-from-pdf-with-javascript

但是,这要求使用HTTP请求存储和访问文件。

到目前为止,我可以使用File API读取PDF文件,但无法与文本内容进行交互。

HTML

<input type="file" name="File Upload" id="tpdfFileUpload" accept=".pdf" />

JavaScript

document.getElementById('pdfFileUpload').addEventListener('change', upload, false);

function upload(evt) {
    var file = evt.target.files[0];
    var reader = new FileReader();
    reader.readAsText(file);

    reader.onload = function(event) {
        var textData = event.target.result;
        //
        // INSERT Code to convert textData into usable text.
        //  
    };

    reader.onerror = function() {
        alert('Unable to read ' + file.fileName);
    };
}

我玩过PDF.js,但是很难找到适合该用例的东西。

0 个答案:

没有答案