应用错误收集

通过深度学习从PDF提取短语

时间：2019-11-25 17:28:38

标签： keras deep-learning

我想教AI从PDF中提取特定短语。例如，产品名称在文档中描述的某处，而AI必须找到并提取它。我的问题是，最好将PDF作为图像或提取的String来提供，因为文档的结构是粗略的。我希望我的问题可以理解。

也许我也有一些想法或关键字：）

1 个答案:

答案 0 :(得分：0)

将pdf图像中的字符转换为文本将是更多的计算机视觉任务，并且似乎这不是您要执行的操作，因为您似乎对短语提取（NLP）更感兴趣。因此，第一步可能是从pdf中提取文本，然后再将其输入到NLP库中进行短语提取。

Python中似乎有很多库可以进行pdf文本提取-this从Google的快速搜索中弹出。至于NLP，在该领域有很多库和概念需要学习，再次Google快速搜索获得this文章作为Python中NLP的介绍。