从扫描的文本文档中提取段落

时间:2018-07-16 11:05:47

标签: tesseract officer

我想提取文本文档中以某个单词开头的每个段落。该文档是对另存为ODC-doc(docx类型)的打印文档的扫描。

read_docx函数能够读取此文档,并且使用cursor_reach函数可以使光标指向有趣的单词。问题是:如何复制(或提取)以该词开头并以空行结尾的整个段落?

第二种方法:我能够生成一个将wohle文本表示为字符串的变量。在这种情况下的问题是相似的:我如何提取该字符串中以某个单词开头的每个部分?

我将非常感谢您的建议!

0 个答案:

没有答案