阅读原始内容的pdf文件

时间:2010-05-21 09:35:31

标签: java pdf text-extraction text-formatting

我想阅读带有原始内容的pdf文件,比如它的字体(可能有些字体很小而有些字体很大)和段落和表格(如果是的话)。

它是如何可能的。

帮助。

1 个答案:

答案 0 :(得分:1)

您需要一个像jPod这样的库,它可以将PDF文档解析回生成它们的结构中。 PDF规范非常复杂,但是如果你只想抓取文字和字体大小,那么这应该不会太难。