应用错误收集

从pdf中提取段落

时间：2011-03-15 08:11:44

标签： pdf extraction pdfbox

我正在对pdf电子书进行主题建模，需要逐段提取文本。为此，我使用apache pdfBox，它可以有效地从pdf中提取文本。

PDFParser解析器; PDFTextStripper pdfStrip = null; parsedText = pdfStrip.getText（pdDoc）;

但我无法分别提取段落。此工具提供了一种设置段落开始/结束标识符的方法，但我需要知道段落中断标识符。

有没有办法做到这一点，或者是否有其他可用的工具可以有效地进行段落提取？

1 个答案:

答案 0 :(得分：1)

PdfNitro是我找到的用于提取段落的最佳工具。

此工具的唯一问题是它将分页符视为分段符，否则效果很好。该工具有14天的试用版供测试。