我使用Apache POI搜索Word文件(doc和docx)来查找指定的段落和表格。使用来自SO和API的各种Q / A,到目前为止一切正常。
我接下来要做的是将Word文件转换为图片,并通过在找到的段落/表格周围绘制框来突出显示我的搜索结果。
我已经编写了部分,我在PDF上围绕文本绘制框并将其转换为图像(使用PDFBox),我读到Tika将能够将我的Word文档打印到PDF。
但我对如何检索文本段落/表格的位置完全无能为力。我已经搜索了API,但我能找到的最接近的是段落中的字符位置(如段落中的#34;第i个字符"),它现在没有告诉我什么关于我应该在哪里开始/停止画我的盒子。
我的"计划-B"将是"空打印"所有我不感兴趣的段落,只有"明显打印"我发现部分为PDF并检索那里的坐标。但我真的很想避免这种情况,因为如果我改变文字外观,我担心会有其他复杂情况来检索确切的位置。
我不想直接在单词doc中绘制框(或以其他方式突出显示)文本,因为我计划将演示文稿部分移植到Web应用程序(并使用{绘制框) {1}}或其他东西)。
有没有人知道如何继续这个或知道我可能会找到提示或解决方案的地方?