通过深度学习从PDF提取短语

时间:2019-11-25 17:28:38

标签: keras deep-learning

我想教AI从PDF中提取特定短语。 例如,产品名称在文档中描述的某处,而AI必须找到并提取它。 我的问题是,最好将PDF作为图像或提取的String来提供,因为文档的结构是粗略的。 我希望我的问题可以理解。

也许我也有一些想法或关键字:)

1 个答案:

答案 0 :(得分:0)

将pdf图像中的字符转换为文本将是更多的计算机视觉任务,并且似乎这不是您要执行的操作,因为您似乎对短语提取(NLP)更感兴趣。因此,第一步可能是从pdf中提取文本,然后再将其输入到NLP库中进行短语提取。

Python中似乎有很多库可以进行pdf文本提取-this从Google的快速搜索中弹出。至于NLP,在该领域有很多库和概念需要学习,再次Google快速搜索获得this文章作为Python中NLP的介绍。