应用错误收集

我目前正在从pdf提取文本。我当前的问题是从提取的文本中区分标题和子标题。我正在使用iTextSharp，并使用粗体文本信息来检测标题。字体大小不能一直被信任。也尝试过使用PDFBox。

1）我想知道有什么方法可以从PDF识别标题和子标题。

2）Adobe或pdfExchange编辑器是否提供相同的API？

例如：

sample pdf image is given

我需要提取

“ 2040年的旅游业：带来一百万游客每年进入天堂”作为标题

“执行摘要”作为子标题

即使可以使用粗体文本信息将其提取出来，但在很多情况下还是失败了。这就是为什么要寻找API。