在Python 3.4中从.PDF或.DOCX查找文本位置的最佳工具

时间:2017-06-26 16:07:19

标签: string python-3.x pdf docx text-extraction

我目前正在开展一个项目,我必须在PDF文件的字符串下面放置一个数字签名(.JPG文件),评论'。

我希望能够以某种方式找到字符串的坐标或位置,'评论'然后最好将signature.jpg放在它下面的几个坐标处。

最初,该文件是(.doc)而不是(.pdf)。是否更容易找到字符串的位置,'评论'首先在(.doc)上然后将其转换为(.PDF)?如果是这样,我怎么能找到'评论'的位置?在Python中的(.doc)文件?

由于

1 个答案:

答案 0 :(得分:0)

这是一个非常棘手的问题。您要问的不仅仅是文本搜索 - 该部分相对容易。但要查找页面位置,您必须从字符串返回容器,这可能是分层嵌套 - 就像一组嵌套的html元素 - 并计算位置,然后在指定的位置轻松添加您的sig文件在那下面。

指定签名的位置要容易得多 - 也许你的文具预留了边距签名的位置,你知道坐标。

至于doc选项 - 我认为它是同一个问题,但另一种疯狂的文件格式。