string - 在Python 3.4中从.PDF或.DOCX查找文本位置的最佳工具

时间：2017-06-26 16:07:19

标签： string python-3.x pdf docx text-extraction

我目前正在开展一个项目，我必须在PDF文件的字符串下面放置一个数字签名（.JPG文件），评论＆＃39;。

我希望能够以某种方式找到字符串的坐标或位置，＆＃39;评论＆＃39;然后最好将signature.jpg放在它下面的几个坐标处。

最初，该文件是（.doc）而不是（.pdf）。是否更容易找到字符串的位置，＆＃39;评论＆＃39;首先在（.doc）上然后将其转换为（.PDF）？如果是这样，我怎么能找到＆＃39;评论＆＃39;的位置？在Python中的（.doc）文件？

由于

答案 0 :(得分：0)

这是一个非常棘手的问题。您要问的不仅仅是文本搜索 - 该部分相对容易。但要查找页面位置，您必须从字符串返回容器，这可能是分层嵌套 - 就像一组嵌套的html元素 - 并计算位置，然后在指定的位置轻松添加您的sig文件在那下面。

指定签名的位置要容易得多 - 也许你的文具预留了边距签名的位置，你知道坐标。

至于doc选项 - 我认为它是同一个问题，但另一种疯狂的文件格式。