在nodejs中获取文件(word,excel,ppt)元数据信息

时间:2017-07-11 01:38:25

标签: javascript node.js reactjs client

我想获取文件信息,至少只有客户端nodejs的页数信息(反应)。我能够使用PDFJs获得相同的PDF文件。有人可以指出如何为word,xls和ppt等其他文件类型做些什么?如果有外部API可以提供此服务,那么指向它也会有所帮助。

2 个答案:

答案 0 :(得分:1)

要获取docx和pdf文件中的页数,您可以使用https://www.npmjs.com/package/docx-pdf-pagecount

const getPageCount = require('docx-pdf-pagecount');

getPageCount('E:/sample/document/aa/test.docx')
  .then(pages => {
    console.log(pages);
  })
  .catch((err) => {
    console.log(err);
  });


getPageCount('E:/sample/document/vb.pdf')
  .then(pages => {
    console.log(pages);
  })
  .catch((err) => {
    console.log(err);
  });

答案 1 :(得分:0)

您可以使用XLSX来解析类似电子表格的文件。 XLSX可以解析文件并返回它们的所有信息。

但是在使用XLSX解析这些文件之前,您只能检索元信息。这意味着,无论如何,你必须解析它们。如果您的文件很大,那么如果您在客户端幻灯片上执行此操作,则会对客户端浏览器造成性能问题。

更新

一个提示,你可以找到一些工具来检测文件的文件类型,并将它们传递给相应的解析器获取元信息。

目前,JavaScript中没有本地实现的库。如果您对其他一些非纯节点模块没问题。

textract一样,看看它是如何运作的。