标签: keras deep-learning
我想教AI从PDF中提取特定短语。 例如,产品名称在文档中描述的某处,而AI必须找到并提取它。 我的问题是,最好将PDF作为图像或提取的String来提供,因为文档的结构是粗略的。 我希望我的问题可以理解。
也许我也有一些想法或关键字:)
答案 0 :(得分:0)
将pdf图像中的字符转换为文本将是更多的计算机视觉任务,并且似乎这不是您要执行的操作,因为您似乎对短语提取(NLP)更感兴趣。因此,第一步可能是从pdf中提取文本,然后再将其输入到NLP库中进行短语提取。
Python中似乎有很多库可以进行pdf文本提取-this从Google的快速搜索中弹出。至于NLP,在该领域有很多库和概念需要学习,再次Google快速搜索获得this文章作为Python中NLP的介绍。