我在使用Apache Tika解析大型PDF文件时遇到了一些问题。 文件大小接近5 MB。
以下是代码:
package com.ibm.lnk.processor;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import com.ibm.lnk.utility.LNKProcessorUtility;
public class TestClient {
public static void main(String[] args) throws IOException {
InputStream inputStream=null;
try {
inputStream=new FileInputStream(new File("C:\\CognitiveAssignment\\ProjectSpecificMaterials\\C3Portal\\TestData\\T1\\Anupam Sarkar_IBM_CV.pdf"));
String content=LNKProcessorUtility.getTextContent(inputStream);
System.out.println(content);
} catch (Exception e) {
System.out.println(e);
}finally {
inputStream.close();
}
}
}
我得到的例外是:
org.apache.tika.exception.TikaException:无法提取所有PDF内容
任何人都可以帮我解决问题吗?
答案 0 :(得分:0)
尝试使用apache pdfbox从pdf中读取文本
示例代码 -
import java.io.File;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
public class PDFTextReader {
public static void main(String[] args) throws Exception {
File file = new File("<any pdf>");
PDDocument inputDoc= PDDocument.load(file);
PDFTextStripper stripper = new PDFTextStripper();
System.out.println("Text: " + stripper.getText(inputDoc));
}
}