我目前正在从pdf提取文本。我当前的问题是从提取的文本中区分标题和子标题。我正在使用iTextSharp,并使用粗体文本信息来检测标题。字体大小不能一直被信任。也尝试过使用PDFBox。
1)我想知道有什么方法可以从PDF识别标题和子标题。
2)Adobe或pdfExchange编辑器是否提供相同的API?
例如:
我需要提取
“ 2040年的旅游业: 带来一百万游客 每年进入天堂”作为标题
“执行摘要”作为子标题
即使可以使用粗体文本信息将其提取出来,但在很多情况下还是失败了。这就是为什么要寻找API。