如何从pdf文件中读取西藏内容?

时间:2014-11-11 14:03:39

标签: java

我有一个西藏pdf文件,我想提取其内容。但我尝试按照三个代码来阅读文件,我得到的代码并不是我想要的。

代码1:

import java.io.IOException;
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;

public class iTextReadDemo {
    public static void main(String[] args) {
        try {
            PdfReader reader = new PdfReader("");

            String page = PdfTextExtractor.getTextFromPage(reader, 1);

            System.out.println("Page Content:\n\n" + page + "\n\n");

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}// - See more at:
// http://www.quicklyjava.com/read-pdf-file-in-java-using-itext/#sthash.iAhF00Kj.dpuf

code2:

import java.io.FileOutputStream;
import com.lowagie.text.Document;
import com.lowagie.text.PageSize;
import com.lowagie.text.Paragraph;
import com.lowagie.text.pdf.PdfReader;
import com.lowagie.text.pdf.PdfStamper;
import com.lowagie.text.pdf.PdfWriter;

public class MainClass {
  public static void main(String[] args) throws Exception {
    PdfReader reader = new PdfReader("");
    byte[] bs = new byte[100];
    byte[] streamBytes = reader.getPageContent(1);
    for(byte b: streamBytes){
        System.out.print((char)b);
    }
  }
}

CODE3:

package pdfBox;

import java.io.BufferedWriter;
import java.io.File;
import java.io.IOException;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;

public class PDFTest {

    public static void main(String[] args) throws Exception {
        PDDocument pd;
        File input = new File("C:\\Users\\Administrator\\Desktop\\tibetan Dictionary pdf/藏英英藏词典 - 副本.pdf");
        pd = PDDocument.load(input);
        PDFTextStripper reader = new PDFTextStripper("utf-8");
        String pageText = reader.getText(pd);
        System.out.println(pageText);
    }
}

这是maven pom依赖的一部分

<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>itextpdf</artifactId>
    <version>5.5.3</version>
</dependency>
<dependency>
    <groupId>com.lowagie</groupId>
    <artifactId>itext</artifactId>
    <version>4.2.1</version>
</dependency>
<dependency>
    <groupId>org.swinglabs</groupId>
    <artifactId>pdf-renderer</artifactId>
    <version>1.0.5</version>
</dependency>
<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>1.8.7</version>
</dependency>

出了什么问题?

他说对了吗?

https://answers.acrobatusers.com/Can-I-convert-PDF-Word-Doc-Tibetan-script-addition-English-language-q219757.aspx

PDF中导出内容的质量与PDF&#34; build&#34;的质量直接相关。 (什么是引擎盖下,而不是你&#34;看到&#34;)。质量差导出表明PDF格式不佳。没有什么可以做的,要求PDF的创始人做得更好。

0 个答案:

没有答案