我的任务是使用IBM Watson将PDF转换为文本文件或任何可能对我的任务有用的输出。
PDF是由客户创建并以不同格式发送给我们的采购订单。客户可以按照自己的意愿创建这些采购订单,我必须解析它们。
我尝试过使用默认设置的文档转换器,输出就到处都是。
任何接近这一点的建议都会很棒......也许就像使用IBM Watson智能更好地找到这些采购订单中所需的信息,即使它们没有定义。
感谢您的帮助。
答案 0 :(得分:2)
您可以轻松查看IBM开发人员的API Reference文档,以确保我的答案。
我认为您使用的是curl
,但如果您愿意,可以在链接中包含Nodejs
,Python
,Java
的示例。但使用条件实际上是相同。
使用CURL检查示例转换方法:
curl -X POST -u "{username}":"{password}" -F config="{\"conversion_target\":\"answer_units\"}" -F "file=@sample.pdf" "https://gateway.watsonplatform.net/document-conversion/api/v1/convert_document?version=2015-12-15"
在file
内,您将从文件中选择格式,例如:PDF
要在cURL中构建您的own conversion
,请使用您自己的PDF,HTML或Word文档文件替换要调用的文件,并将"conversion_target"
内的config
替换为您想要的格式转换成。有效值为"answer_units"
,"normalized_html"
或"normalized_text"
。
您可以在GitHub here中看到IBM Developers中的一个示例。
将此示例here。
在官方文档中,您可以看到有关使用此服务转换文档的教程check here。