Question

我希望使用C＃以大学项目的方式在PDF文档中提取表格。我对itextsharp非常熟悉。

有没有办法可以在itextsharp？
我可以为此目的使用其他免费图书馆吗？
我可以将PDF转换为XML / HTML以提取<table>代码，如果有，我可以使用免费库进行PDF到HTML转换吗？

或

请给我一个合适的解决方案..

Answer 1

你能尝试这样的东西并从我从VB.Net转换为C＃equiv的这个例子中扩展你需要的东西

public static string GetTextFromPDF(string PdfFileName)
{
    iTextSharp.text.pdf.PdfReader pdfReader = new iTextSharp.text.pdf.PdfReader(PdfFileName);
    dynamic sOut = string.Empty;

    for (i = 1; i <= pdfReader.NumberOfPages; i++) {
        iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
        sOut += iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(pdfReader, i, its);
    }
    return sOut;
}

从PDF文档中提取表格

1 个答案: