我正在尝试构建一个基于Web的实用程序,该实用程序允许用户使用<input type="file">
“选择”系统文件并立即从文件中提取文本数据,而不必将文件上传到服务器。然后,我将从文件中解析文本以用于多个应用程序。
我遇到过这种从PDF文件提取或抓取文本的方法:https://ourcodeworld.com/articles/read/405/how-to-convert-pdf-to-text-extract-text-from-pdf-with-javascript
但是,这要求使用HTTP请求存储和访问文件。
到目前为止,我可以使用File API读取PDF文件,但无法与文本内容进行交互。
HTML
<input type="file" name="File Upload" id="tpdfFileUpload" accept=".pdf" />
JavaScript
document.getElementById('pdfFileUpload').addEventListener('change', upload, false);
function upload(evt) {
var file = evt.target.files[0];
var reader = new FileReader();
reader.readAsText(file);
reader.onload = function(event) {
var textData = event.target.result;
//
// INSERT Code to convert textData into usable text.
//
};
reader.onerror = function() {
alert('Unable to read ' + file.fileName);
};
}
我玩过PDF.js,但是很难找到适合该用例的东西。