我需要从word和pdf文档中提取实体。文档可以在10到20页的范围内。是否有可扩展的库/ API可以插入我们的处理管道?任何不同解决方案的比较研究都会有所帮助。
答案 0 :(得分:1)
看看Watson Natural Language Understanding(你需要获得一个IBM ID,然后登录才能看到这个内容 - 别担心,费用是0美元)。使用Watson Natural Language Understanding,您需要查看API Explorer,以找到用于获取所需结果的正确API语法。
我也注意到提到Word / PDF文档。您需要使用Watson Discovery服务转换那些,然后您可以将转换后的文档传递给Watson Natural Language Understanding,其中包含JSON,文本或HTML输入。