我在itext网站上阅读了指南,但我知道是否可以在pdf文件上书写然后添加toc。
答案 0 :(得分:0)
这取决于,如果您的文档被标记,则生成目录应该很简单。如果没有,你就可以在结构识别领域进行有趣的潜水。
您看,PDF不是WYSIWYG格式。将其视为指令的容器,而不是文本文档。
从PDF文档中获取任何文本是一个复杂的问题(iText只是让它看起来很简单)。它涉及处理解析指令,跟踪在哪个坐标处呈现的内容,然后根据逻辑读取顺序对它们进行排序。
这只是为了得到文字。您想要什么,甚至需要进一步的步骤来确定段落的位置,以及哪些文本片段可能是部分和子部分的标题。