使用python从word文档的第一页提取文本

时间:2018-09-25 13:46:20

标签: python ms-word

我正在尝试寻找可以从Word文档首页提取文本的Python脚本。我发现可以执行段落但不能执行页面的函数,这不是我所需要的。

1 个答案:

答案 0 :(得分:1)

问题是docx格式的页面是纯虚拟的。 MS Word会根据文本大小和其他参数自行决定放置页面限制符的位置和时间。

当用户确实设置了分页符时,它会容易一些,例如,可以像描述there那样找到分页符。

作为一种解决方法,您可以只计算每页的行数并自己修剪,但是据我所知,没有“简便”的方法可以用1行代码完成所有工作。