Question

我想从网站解析PDF文件。

有人可以说如何使用Grails从PDF文件中逐字逐句提取文本吗？

Answer 1

我不知道Grails / Groovy，但您可以使用Apache lib PDF Box来解析项目中的PDF。

Answer 2

其他选项包括支持pdf和其他格式的Apache Tika以及iText。

要与Groovy / Grails一起使用，请使用下面的Java，就像使用Groovy / Grails一样

要使用Apache tika和Java，你必须：

从tika.apache.org
下载this示例程序
使用javac -cp编译程序tika-app-1.2.jar TextExtractor.java
提取一些文本java -cp tika-app-1.2.jar：。 TextExtractor aPDFFile.pdf

要在Java中使用itext：

下载itextpdf-5.3.5.jar

编译以下内容：

import java.io.IOException;

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;

public class itextHelloWorld {


   static void extract(String input) throws IOException{
       String path = input;
       PdfReader reader = new PdfReader(path);
       int numberOfPages = reader.getNumberOfPages();
       for (int i = 0;i<numberOfPages;i++) {
           System.out.println(PdfTextExtractor.getTextFromPage(reader,i+1));
       }
   } 

    public static void main(String[] args) throws IOException {
        extract(args[0]);
    }
}

使用java -cp itextpdf-5.3.5.jar提取文本： itextHelloWorld aPDFFile.pdf

Answer 3

正如另一种选择一样，我总是使用Aspose产品取得成功。我与Aspose没有任何关系。我只是喜欢他们的产品。

使用Grails阅读PDF文件

3 个答案: