应用错误收集

首先，我不是针对特定的开发答案，而是一种开发方法。

我遇到的问题是，我有一个客户在PDF中有大量数量的文章，在过去的20年里每年有50篇文章，每年有50篇文章。所有这些PDF都是从Quark express编译的，来自有mac的人（如果这些信息很重要）。每次创建新的pdf杂志时，Web开发团队都会将每篇文章复制并粘贴（！）到互联网上的表格（！），包括。标题，内容，关键字，引用，authorname等。一个人完成这项工作通常需要大约3整天。

当我在那里工作时（我已经不在了，这已经是将近七年了），我使用剪贴板监控应用程序和一些与服务器交互的基于XML的简单PHP脚本加快了整个过程。你需要做的只是选择文本，CTRL + C，选择更多文本，CTRL + C，转到应用程序（ALT + TAB），按“下一篇文章”，然后重复此操作。但我们，或者大多数我，每年仍然花费大约五十天来处理PDF杂志。

现在我已经七年了，因为友好的访问原因，我即将再次与我的老板谈话。我知道他们仍在使用我的应用程序（！）。但也许回顾一下他们的问题是一个好主意，看看我是否可以建议一个可以帮助他们的编码项目？

我从未使用Quark Express，我只是知道它与MS Word类似，就我对该软件的了解而言。我对未加密的，提取的PDF代码/语法并不十分熟悉。

简而言之：Quark Express是否有一些特定的编译模式，可以在PDF脚本中用于提取文章？什么是'智能'工具，可以从类似结构的pdf页面“学习”，文章内容是什么？那里有工具，比如某种类型的Quark Xpress模块，可以用一个看不见的参考标签“封装”或“标记”一篇文章，使脚本的提取更简单吗？

创建这些PDF的人在过去20年中一直在做自己的工作，并且不愿意改变他们的工作流程，除了软件更新。任何其他工具都不得干扰他们的工作流程，否则他们就会拒绝它。

我不想要代码;但仅仅是您或其他人对其他PDF提取问题所做的一些描述。最好的答案是对几种方法的描述，或对带有案例描述的外部链接的一些引用。

广泛的问题，但乍一看我的回答是 - 如果你让它们走到PDF那么 - 你已经把事情变得非常困难了。如果他们仍在使用Quark XPress，那么有更好的方法可以做到这一点，而且很多出版商都会使用类似的方法。

1）考虑从Quark XPress生成PDF和XML。没关系，他们不想改变他们的方式，但他们不得不用Quark创建PDF;生成XML也不是一个非常重要的额外步骤。事实上（警告 - 从属关系！）有一些工具可以使所有这一切成为一步。你可以编写AppleScript来控制这个过程，但像axaio MadeToPrint这样的东西会在人们点击“导出”后自动生成（正确的）PDF和XML文件。

2）获得PDF和相同内容的XML后，使用PDF进行打印（就像知道的那样），然后编写一些代码将XML转换为您在网站上需要的任何内容。如果编码是在网站上完成的，你可能甚至不需要调整夸克的XML;只需使网站足够智能，即可获得必要的任何零碎。

广泛问题的广泛答案;希望这就是你要找的......

从PDF杂志中提取文章内容

1 个答案: