标签: python pdf search pypdf pdfminer
我正在为我的PDF数据语料库开发自定义搜索引擎。
我有一个转换层,可以将PDF内容转储到文本中(使用Apache Tika和GROBID)。我已完成搜索图层和返回搜索结果列表的视图。
现在,我想为原始PDF添加突出显示功能,用于显示搜索字词的行。是的,如果有必要,我想修改PDF文件。
PDF文件中有高亮显示文字吗? PDFMiner或PyPDF2或其他Python库能够做到吗?
...或者你可以推荐其他的,也许是外部服务吗?
答案 0 :(得分:3)
您可以使用PyPDF2突出显示文字。
要查找文字的位置,请查看this answer。