有没有办法为PDF页面创建隐藏的可搜索术语?

时间:2019-07-15 14:54:26

标签: python pypdf2 pdfjs

所以我有一个有趣的主意,但是我不确定是否可以执行。如果有比我想的更好的方法,我愿意听其他路线。

基本上,我想在我的网站上显示一些非常大的PDF。我已经为此设置了PDF.js,它可以工作。唯一的问题是加载时间非常慢,因为存在大量的图稿和图层。

我发现,平展PDF不仅可以显着改善文件大小,而且可以显着改善加载时间(即使与类似大小的未平展的PDF相比也是如此)。此方法的唯一缺点是所有内容(包括文本)都被展平。意味着用户将无法搜索文档,这是一个缺点。

我在这里的想法是,我想使用Python提取文本片段,然后将它们添加为隐藏的“可搜索键”。这样,如果有人要搜索该字符串,尽管没有可选择的文本,它仍会将它们带到正确的页面。这样会增加文件大小,但由于没有字体或其他任何东西,因此仍会大大减少。

我以前在其他一些项目中使用过PyPDF2,并且一直在阅读文档,但是我似乎找不到特别有用的东西。如果有人能指出正确的方向(或提供替代方法),那将不胜感激。

0 个答案:

没有答案