使用Python

时间:2016-10-27 15:18:26

标签: python pdf search pypdf pdfminer

我正在为我的PDF数据语料库开发自定义搜索引擎。

我有一个转换层,可以将PDF内容转储到文本中(使用Apache Tika和GROBID)。我已完成搜索图层和返回搜索结果列表的视图。

现在,我想为原始PDF添加突出显示功能,用于显示搜索字词的行。是的,如果有必要,我想修改PDF文件。

PDF文件中有高亮显示文字吗? PDFMiner或PyPDF2或其他Python库能够做到吗?

...或者你可以推荐其他的,也许是外部服务吗?

1 个答案:

答案 0 :(得分:3)

您可以使用PyPDF2突出显示文字。

要查找文字的位置,请查看this answer