使用IBM Watson Document Converter解析PDF

时间:2017-05-04 20:19:56

标签: pdf document ibm-watson

我的任务是使用IBM Watson将PDF转换为文本文件或任何可能对我的任务有用的输出。

PDF是由客户创建并以不同格式发送给我们的采购订单。客户可以按照自己的意愿创建这些采购订单,我必须解析它们。

我尝试过使用默认设置的文档转换器,输出就到处都是。

任何接近这一点的建议都会很棒......也许就像使用IBM Watson智能更好地找到这些采购订单中所需的信息,即使它们没有定义。

感谢您的帮助。

1 个答案:

答案 0 :(得分:2)

您可以轻松查看IBM开发人员的API Reference文档,以确保我的答案。

我认为您使用的是curl,但如果您愿意,可以在链接中包含NodejsPythonJava的示例。但使用条件实际上是相同

使用CURL检查示例转换方法:

curl -X POST -u "{username}":"{password}" -F config="{\"conversion_target\":\"answer_units\"}" -F "file=@sample.pdf" "https://gateway.watsonplatform.net/document-conversion/api/v1/convert_document?version=2015-12-15"

file内,您将从文件中选择格式,例如:PDF 要在cURL中构建您的own conversion,请使用您自己的PDF,HTML或Word文档文件替换要调用的文件,并将"conversion_target"内的config替换为您想要的格式转换成。有效值为"answer_units""normalized_html""normalized_text"

  • 您可以在GitHub here中看到IBM Developers中的一个示例。

  • 将此示例here

  • 分开
  • 在官方文档中,您可以看到有关使用此服务转换文档的教程check here