我目前正在处理有关优化代理机构工作流程的问题。
该机构收到30-40个PDF / Word文档,这些文档应转换为Indesign-Files,将在报纸上打印。它总是相同的模式:带有徽标的工作广告,工作职位和一些文本。 每周相同的客户向我们发送他们的广告。我们的员工通常会采用现有文件的模式并复制粘贴新文本。
我们应用了一些修复格式规则,例如:不是跨行重叠的单词,作业标题和第一段之间的距离。一个重要的是保持高度尽可能小,以降低客户的成本。因为我们有许多新员工,兼职工作等,我们面临着巨大的波动。因此,我们希望对流程进行标准化,以便只为新广告做一些小改动....我猜你知道我的意思。
您是否认为使用NLTK改善流程的可能性?我想到训练一种识别"职称","子弹点",徽标等的算法,并自动提出文本的形成。
一位同事告诉我只是写一个编写indesign文档的脚本。
你怎么看?谢谢到目前为止。这是一个简短的例子: