我有一个SQL Server表,其中包含一个名为Attachment
的数据类型为NVARCHAR(MAX)
的列。我根据特定条件将一些PDF / Docx文件上传到不同行的字段中。这是我将文件上传到db
UPDATE dbo.[Document]
SET Attachment = (SELECT BulkColumn FROM OPENROWSET(BULK N'E:\1.pdf', SINGLE_BLOB) blob)
WHERE ID = 1;
上传成功。我的目的是使用textract或任何其他类似的工具来阅读附件中的基础文本。我看到有a few APIs。由于没有涉及文件或URL,我猜测正确的API应该是Buffere + MIME type,但PDF和Docx的MIME类型究竟是什么?我试图输入"application/pdf" for PDF和"application/vnd.openxmlformats-officedocument.wordprocessingml.document" for docx,我收到了错误:
[错误:传递给textract的参数不正确。]
在这种情况下,MIME类型的正确值应该是什么?或者这不应该被视为缓冲?那么应该使用哪个正确的API?
我可以使用textract打开实际的物理文件并读取内容。
感谢是否有人可以就此事提出建议。