自动加粗PDF文件

时间:2017-10-10 10:05:02

标签: pdf fonts

我收到了一组大型pdf文件(每页大约1000页),我想自动"将这些文件中的整个文本加粗(以便稍后执行OCR过程)。

我可以通过Adobe Acrobat Pro手动逐页完成此任务。但我想知道它是否可以通过工具或编写一段代码自动完成?

P.S。:那些pdf文件是私密的,不允许将它们上传到在线服务(如果存在这样的服务!)

2 个答案:

答案 0 :(得分:0)

(据我所知)没有一个很好的工具可以100%安全的方式执行此操作。

问题是PDF不是一种简单的格式。可以把它想象成一个指令容器。单词不会作为连续字节出现在文档中。它们显示为如下指令:

  1. 将光标放在位置10,50
  2. 将字体设置为Times New Roman,尺寸为10
  3. 画出字符串" H"
  4. 转到第14,50位
  5. 绘制字符串" e"
  6. 如果你想加粗文字,你会遇到各种各样的问题。

    • 粗体文字可能会使其不再适合该行,这意味着您需要重新布局页面。重新布局页面非常困难。你需要知道哪些角色在一起,什么是一个段落,什么是标题,等等。否则你不能明智地移动内容。
    • 加粗文本意味着您需要知道哪些文本已经是粗体。这也是非平凡的。字体有一个标志,使读者能够知道它们是否是粗体。但该物业"大胆"也可以通过其他方式实现。因此,您使用的任何工具都需要能够准确地确定给定的字形是否是粗体,或者仅仅是一些普通字体中某个字符的艺术性稍微大胆的再现。

答案 1 :(得分:0)

跳出来的是你想要这样做“以便稍后执行OCR过程”。基于此,看起来你真正的目标是没有一堆粗体文本 - 你的目标是能够更好地在这组文档上执行OCR。

如果这是真的,请记住一些事情:

  • Boldfacing文本不一定会使OCR流程更加清晰 - 事实上,在某些情况下,它可以使更少清晰易读。 (也没有自动的方法来确定它对给定的文本页面会产生什么影响。)
  • 包含文本的PDF(而不仅仅是文本页面的图像)以可以由PDF处理应用程序提取的方式以数字方式存储文本。以这种方式提取的文本几乎总是比从OCR过程中获得的文本更准确。
  • 如果这些 '图像PDF'充满了文本页面的图像,那么您首先无法轻松地将该文本加粗,只要您可以更改在路标的快照中的文本。 (事实上​​,你必须首先对它进行OCR才能加粗。)
  • 如果您想要打印这些PDF以便以后扫描和OCR,您真的应该研究如何以电子方式提供它们。

简而言之,我不打算专注于如何制作成千上万页的文字粗体字,而是建议退一步看看你真正想要完成的事情。