标签: java pdf text-extraction text-formatting
我想阅读带有原始内容的pdf文件,比如它的字体(可能有些字体很小而有些字体很大)和段落和表格(如果是的话)。
它是如何可能的。
帮助。
答案 0 :(得分:1)
您需要一个像jPod这样的库,它可以将PDF文档解析回生成它们的结构中。 PDF规范非常复杂,但是如果你只想抓取文字和字体大小,那么这应该不会太难。