Node.JS textract读取存储在SQL Server

时间:2016-02-02 08:41:08

标签: sql-server node.js pdf mime-types text-extraction

我有一个SQL Server表,其中包含一个名为Attachment的数据类型为NVARCHAR(MAX)的列。我根据特定条件将一些PDF / Docx文件上传到不同行的字段中。这是我将文件上传到db

的语句
UPDATE dbo.[Document] 
SET Attachment = (SELECT BulkColumn FROM OPENROWSET(BULK N'E:\1.pdf', SINGLE_BLOB) blob) 
WHERE ID = 1; 

上传成功。我的目的是使用textract或任何其他类似的工具来阅读附件中的基础文本。我看到有a few APIs。由于没有涉及文件或URL,我猜测正确的API应该是Buffere + MIME type,但PDF和Docx的MIME类型究竟是什么?我试图输入"application/pdf" for PDF"application/vnd.openxmlformats-officedocument.wordprocessingml.document" for docx,我收到了错误:

  

[错误:传递给textract的参数不正确。]

在这种情况下,MIME类型的正确值应该是什么?或者这不应该被视为缓冲?那么应该使用哪个正确的API?

我可以使用textract打开实际的物理文件并读取内容。

感谢是否有人可以就此事提出建议。

0 个答案:

没有答案