我是Apache PDFBox
的新手;下面是我从简单的简历中提取所有文本的代码。它工作正常,现在我想通过字体,粗体,图像等来获取文本。我该怎么做?
import java.io.File;
import java.io.IOException;
import java.util.Map;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.font.PDFont;
import org.apache.pdfbox.util.PDFTextStripper;
public class PdfExtract {
public static void main(String args[]) throws IOException {
PDDocument pdf = PDDocument.load(new File("/home/praveen/Downloa/sampleresume.pdf"));
PDFTextStripper stripper = new PDFTextStripper();
String plainText = stripper.getText(pdf
System.out.println(plainText);
}
}