使用字体从PDF中提取文本

时间:2013-08-27 10:49:26

标签: c# pdf itextsharp pdfbox

我正在尝试使用Accusoft pdfXpress矩形工具开发一个在PDF上绘制矩形的应用程序,现在我有我选择的段落的坐标。现在我想要做的是从这个区域用文字提取文本。

经过太多研究后,我通过iTextSharp,PDFBOX,Aspose等许多库提取了纯文本,并尝试进行字体提取,但我无法使用字体提取文本。请提供一些帮助。

使用PDFTextstream我得到了这样的纯文本:

public string gettextf(float x, float y, float w, float h, string docpath)
{
    PDFTextStream stream = new PDFTextStream(docpath);
    RegionOutputTarget tgt = new RegionOutputTarget();
    tgt.addRegion(x, y, w, h, "name");
    tgt.addRegion(40, 570, 120, 16, "address");

    Page p = stream.getPage(0);
    p.pipe(tgt);
    stream.close();

    String name = tgt.getRegionText("name");
    String address = tgt.getRegionText("address");
    return name;
}

0 个答案:

没有答案