使用Grails阅读PDF文件

时间:2013-01-11 15:00:58

标签: web-applications grails

我想从网站解析PDF文件。

有人可以说如何使用Grails从PDF文件中逐字逐句提取文本吗?

3 个答案:

答案 0 :(得分:1)

我不知道Grails / Groovy,但您可以使用Apache lib PDF Box来解析项目中的PDF。

答案 1 :(得分:1)

其他选项包括支持pdf和其他格式的Apache Tika以及iText

要与Groovy / Grails一起使用,请使用下面的Java,就像使用Groovy / Grails一样

要使用Apache tika和Java,你必须:

  • tika.apache.org
  • 下载tika-app-1.2.jar
  • 下载this示例程序
  • 使用javac -cp编译程序tika-app-1.2.jar TextExtractor.java
  • 提取一些文本java -cp tika-app-1.2.jar:。 TextExtractor aPDFFile.pdf

要在Java中使用itext:

  • 下载itextpdf-5.3.5.jar
  • 编译以下内容:

    import java.io.IOException;
    
    import com.itextpdf.text.pdf.PdfReader;
    import com.itextpdf.text.pdf.parser.PdfTextExtractor;
    
    public class itextHelloWorld {
    
    
       static void extract(String input) throws IOException{
           String path = input;
           PdfReader reader = new PdfReader(path);
           int numberOfPages = reader.getNumberOfPages();
           for (int i = 0;i<numberOfPages;i++) {
               System.out.println(PdfTextExtractor.getTextFromPage(reader,i+1));
           }
       } 
    
        public static void main(String[] args) throws IOException {
            extract(args[0]);
        }
    }
    
  • 使用java -cp itextpdf-5.3.5.jar提取文本: itextHelloWorld aPDFFile.pdf

答案 2 :(得分:0)

正如另一种选择一样,我总是使用Aspose产品取得成功。我与Aspose没有任何关系。我只是喜欢他们的产品。