从PDF中提取标题和子标题

时间:2018-10-29 10:16:19

标签: itext adobe pdfbox

我目前正在从pdf提取文本。我当前的问题是从提取的文本中区分标题和子标题。我正在使用iTextSharp,并使用粗体文本信息来检测标题。字体大小不能一直被信任。也尝试过使用PDFBox。

1)我想知道有什么方法可以从PDF识别标题和子标题。

2)Adobe或pdfExchange编辑器是否提供相同的API?

例如:

sample pdf image is given

我需要提取

“ 2040年的旅游业: 带来一百万游客 每年进入天堂”作为标题

“执行摘要”作为子标题

即使可以使用粗体文本信息将其提取出来,但在很多情况下还是失败了。这就是为什么要寻找API。

0 个答案:

没有答案