pdf - 自动加粗PDF文件

时间：2017-10-10 10:05:02

标签： pdf fonts

我收到了一组大型pdf文件（每页大约1000页），我想自动＆＃34;将这些文件中的整个文本加粗（以便稍后执行OCR过程）。

我可以通过Adobe Acrobat Pro手动逐页完成此任务。但我想知道它是否可以通过工具或编写一段代码自动完成？

P.S。：那些pdf文件是私密的，不允许将它们上传到在线服务（如果存在这样的服务！）

答案 0 :(得分：0)

（据我所知）没有一个很好的工具可以100％安全的方式执行此操作。

问题是PDF不是一种简单的格式。可以把它想象成一个指令容器。单词不会作为连续字节出现在文档中。它们显示为如下指令：

如果你想加粗文字，你会遇到各种各样的问题。

粗体文字可能会使其不再适合该行，这意味着您需要重新布局页面。重新布局页面非常困难。你需要知道哪些角色在一起，什么是一个段落，什么是标题，等等。否则你不能明智地移动内容。
加粗文本意味着您需要知道哪些文本已经是粗体。这也是非平凡的。字体有一个标志，使读者能够知道它们是否是粗体。但该物业＆＃34;大胆＆＃34;也可以通过其他方式实现。因此，您使用的任何工具都需要能够准确地确定给定的字形是否是粗体，或者仅仅是一些普通字体中某个字符的艺术性稍微大胆的再现。

答案 1 :(得分：0)

跳出来的是你想要这样做“以便稍后执行OCR过程”。基于此，看起来你真正的目标是没有一堆粗体文本 - 你的目标是能够更好地在这组文档上执行OCR。

如果这是真的，请记住一些事情：

Boldfacing文本不一定会使OCR流程更加清晰 - 事实上，在某些情况下，它可以使更少清晰易读。（也没有自动的方法来确定它对给定的文本页面会产生什么影响。）
包含文本的PDF（而不仅仅是文本页面的图像）以可以由PDF处理应用程序提取的方式以数字方式存储文本。以这种方式提取的文本几乎总是比从OCR过程中获得的文本更准确。
如果这些 '图像PDF'充满了文本页面的图像，那么您首先无法轻松地将该文本加粗，只要您可以更改在路标的快照中的文本。（事实上，你必须首先对它进行OCR才能加粗。）
如果您想要打印这些PDF以便以后扫描和OCR，您真的应该研究如何以电子方式提供它们。

简而言之，我不打算专注于如何制作成千上万页的文字粗体字，而是建议退一步看看你真正想要完成的事情。