我需要编写一个程序,可以找到PDF文档中的最大文本(可能是标题!),我尝试使用Tika作为解析器,但我找不到办法得到字体大小。此外,Tika库对我的使用来说似乎太强大和复杂。 我可以使用更简单的方法/库吗?不使用库并自己解析PDF是否更容易或更好(我对这种方法感兴趣)?如果是的话,我应该从哪里开始?
非常感谢任何信息。
答案 0 :(得分:1)
我在SO上发现this方法覆盖了PDFBox库中processTextPosition
的{{1}}并提取字体大小。之前我没有看到它,因为帖子的问题有点不同。