从PDF杂志中提取文章内容

时间:2013-01-12 09:03:33

标签: pdf structure extraction article

首先,我不是针对特定的开发答案,而是一种开发方法。

我遇到的问题是,我有一个客户在PDF中有大量数量的文章,在过去的20年里每年有50篇文章,每年有50篇文章。所有这些PDF都是从Quark express编译的,来自有mac的人(如果这些信息很重要)。每次创建新的pdf杂志时,Web开发团队都会将每篇文章复制并粘贴(!)到互联网上的表格(!),包括。标题,内容,关键字,引用,authorname等。一个人完成这项工作通常需要大约3整天。

当我在那里工作时(我已经不在了,这已经是将近七年了),我使用剪贴板监控应用程序和一些与服务器交互的基于XML的简单PHP脚本加快了整个过程。你需要做的只是选择文本,CTRL + C,选择更多文本,CTRL + C,转到应用程序(ALT + TAB),按“下一篇文章”,然后重复此操作。但我们,或者大多数我,每年仍然花费大约五十天来处理PDF杂志。

现在我已经七年了,因为友好的访问原因,我即将再次与我的老板谈话。我知道他们仍在使用我的应用程序(!)。但也许回顾一下他们的问题是一个好主意,看看我是否可以建议一个可以帮助他们的编码项目?

我从未使用Quark Express,我只是知道它与MS Word类似,就我对该软件的了解而言。我对未加密的,提取的PDF代码/语法并不十分熟悉。

简而言之:Quark Express是否有一些特定的编译模式,可以在PDF脚本中用于提取文章?什么是'智能'工具,可以从类似结构的pdf页面“学习”,文章内容是什么?那里有工具,比如某种类型的Quark Xpress模块​​,可以用一个看不见的参考标签“封装”或“标记”一篇文章,使脚本的提取更简单吗?

创建这些PDF的人在过去20年中一直在做自己的工作,并且不愿意改变他们的工作流程,除了软件更新。任何其他工具都不得干扰他们的工作流程,否则他们就会拒绝它。

我不想要代码;但仅仅是您或其他人对其他PDF提取问题所做的一些描述。最好的答案是对几种方法的描述,或对带有案例描述的外部链接的一些引用。

1 个答案:

答案 0 :(得分:2)

广泛的问题,但乍一看我的回答是 - 如果你让它们走到PDF那么 - 你已经把事情变得非常困难了。如果他们仍在使用Quark XPress,那么有更好的方法可以做到这一点,而且很多出版商都会使用类似的方法。

1)考虑从Quark XPress生成PDF和XML。没关系,他们不想改变他们的方式,但他们不得不用Quark创建PDF;生成XML也不是一个非常重要的额外步骤。事实上(警告 - 从属关系!)有一些工具可以使所有这一切成为一步。你可以编写AppleScript来控制这个过程,但像axaio MadeToPrint这样的东西会在人们点击“导出”后自动生成(正确的)PDF和XML文件。

2)获得PDF和相同内容的XML后,使用PDF进行打印(就像知道的那样),然后编写一些代码将XML转换为您在网站上需要的任何内容。如果编码是在网站上完成的,你可能甚至不需要调整夸克的XML;只需使网站足够智能,即可获得必要的任何零碎。

广泛问题的广泛答案;希望这就是你要找的......