我正在尝试阅读PDF和DOCX的内容,如下所示:
var fs = require('fs');
fs.readFile('example.pdf, function(err, data) {
if (err) {
process.exit(0);
}
console.log(data);
});
我搜索了一下,发现我应该用toString对数据进行字符串化,对吧?但是,如果我尝试做终端将开始发出噪音,数据将是这样的:
<</CreationDate(D:20090121145808Z)/Author(Mauro Mangas)/Creator(Adobe Illustrator\(R\) 13.0)/Producer(Acr0000000000 65535 f.0 \(Macintosh\))/ModDate(D:20090121145808Z)/Title(pdf_janela)>>
0000006390 00000 n
0000006424 00000 n
0000006457 00000 n
0000006508 00000 n
0000010155 00000 n
%EOFtxref>>
我忘记了什么吗?
感谢。
答案 0 :(得分:0)
您正在尝试将pdf文件解释为文本,这可能没有多大意义。最终打印的一些字符是控制字符,可以告诉终端做一些事情,比如改变文本颜色或背景颜色,制作噪音(“铃声”字符等)等。