为什么我得到"无法推迟"尝试使用IBM Bluemix文档转换服务时出错?

时间:2017-03-16 15:27:51

标签: ibm-cloud ibm-watson document-conversion

我正在尝试使用带有Node.js应用程序的Bluemix文档转换服务来转换文档。除了我的应用程序中的错误,我什么都没得到,但我使用演示页面使用转换的测试文档很好。下面是一个演示问题的最小应用程序(请注意,虽然此应用程序正在从磁盘转换PDF,但真正的"应用程序无法执行此操作,因此缓冲区对象)。

'use strict';

var fs = require('fs');
var DocumentConversionV1 = require('watson-developer-cloud/document-conversion/v1');
var bluemix=require('./my_bluemix');
var extend=require('util')._extend; //Node.js' built-in object extend function

var dcCredentials =  extend({
  url: '<url>',
  version: 'v1',
  username: '<username>',
  password: '<password>'
}, bluemix.getServiceCreds('document_conversion')); // VCAP_SERVICES
var document_conversion = new DocumentConversionV1(dcCredentials);

var contents = fs.readFileSync('./testdoc.pdf', 'utf8');

var parms={
   file: new Buffer(contents,'utf8'),
   conversion_target: 'ANSWER_UNITS',     // (JSON) ANSWER_UNITS, NORMALIZED_HTML, or NORMALIZED_TEXT
   content_type:'application/pdf',
   contentType:'application/pdf', //don't know which of these two works, seems to be inconsistent so I include both
   html_to_answer_units: {selectors: [ 'h1', 'h2','h3', 'h4']},
   };
console.log('First 100 chars of file:\n******************\n'+contents.substr(0,100)+'\n******************\n');
document_conversion.convert(parms, function(err,answerUnits)
   {
   if (!err)
      console.log('Returned '+answerUnits.length);
   else
      console.log('Error: '+JSON.stringify(err));
   });

针对测试PDF(782K)运行此程序的结果是:

$ node test.js
[DocumentConversion] WARNING: No version_date specified. Using a (possibly old) default. e.g. watson.document_conversion({ version_date: "2015-12-15" })
[DocumentConversion] WARNING: No version_date specified. Using a (possibly old) default. e.g. watson.document_conversion({ version_date: "2015-12-15" })
First 100 chars of file:
******************
%PDF-1.5
%����
1 0 obj
<</Type/Catalog/Pages 2 0 R/Lang(en-US) /StructTreeRoot 105 0 R/MarkInfo<<
******************

Error: {"code":400,"error":"Could not push back 82801 bytes in order to reparse stream. Try increasing push back buffer using system property org.apache.pdfbox.baseParser.pushBackSize"}
$

有人可以告诉我

  1. 如何摆脱警告信息
  2. 文档未转换的原因
  3. 我如何&#34;增加回推缓冲区&#34;
  4. 其他文档会出现不同的错误,但是我希望如果能让这个错误发挥作用,那么其他错误也会消失。

1 个答案:

答案 0 :(得分:0)

  1. 您可以通过在配置中指定版本日期来消除警告消息。请参阅测试以获取示例。 1

  2. 如果文档通过演示转换但在使用应用程序时无法转换,则二进制数据如何传递给服务可能会出错。 (例如,它已被破坏或被截断。)您可以在此处查看演示的Node.js源代码2。它可以帮助你弄清楚错误或给你一个不同的方法来加载/发送文件。

  3. 这是服务使用的其中一个底层库的错误。不幸的是,调用者此时无法调整。