我想从网站解析PDF文件。
有人可以说如何使用Grails从PDF文件中逐字逐句提取文本吗?
答案 0 :(得分:1)
我不知道Grails / Groovy,但您可以使用Apache lib PDF Box来解析项目中的PDF。
答案 1 :(得分:1)
其他选项包括支持pdf和其他格式的Apache Tika以及iText。
要与Groovy / Grails一起使用,请使用下面的Java,就像使用Groovy / Grails一样
要使用Apache tika和Java,你必须:
要在Java中使用itext:
编译以下内容:
import java.io.IOException;
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;
public class itextHelloWorld {
static void extract(String input) throws IOException{
String path = input;
PdfReader reader = new PdfReader(path);
int numberOfPages = reader.getNumberOfPages();
for (int i = 0;i<numberOfPages;i++) {
System.out.println(PdfTextExtractor.getTextFromPage(reader,i+1));
}
}
public static void main(String[] args) throws IOException {
extract(args[0]);
}
}
使用java -cp itextpdf-5.3.5.jar提取文本: itextHelloWorld aPDFFile.pdf
答案 2 :(得分:0)
正如另一种选择一样,我总是使用Aspose产品取得成功。我与Aspose没有任何关系。我只是喜欢他们的产品。